ACTA Scientiarum Naturalium Universitatis Pekinensis

An Approach of Sentence Similarity on TREE-LSTM

YANG Meng, LI Peifeng†, ZHU Qiaoming

-

Department of Computer Science and Technology, Suchow University, Suzhou 215006; † Correspond­ing author, E-mail: pfli@suda.edu.cn

相似度计算是自然语言­处理的基础工作。句子相似度计算的目标­是学习一个得分系统, 给定一对句子, 该系统返回相似度得分。例如, 分数范围为0~5, 0 代表这对句子含义完全­无关, 5 代表含义相同。大多数句子相似度计算­方法是将句子对视为一­个平面特征向量, 每个特征是某特定方面(词汇、句法和语义等)相似度计算的结果。这种方法存在局限性, 用平面特征向量代表文­本对的相似度, 表征性较弱。随着神经网络方法的再­度流行, 相关研究表明, TREE-LSTM (long short-term memory)方法可以充分利用结构­化特征得到更多信息[1–2]。

1 相关工作

Abstract Based on the shallow tree and dependency tree, the authors introduce the structural representa­tions, NPST (new phrase-based shallow tree) and NPDT (new phrase-based dependency tree) to TREE-LSTM to compute sentence similarity. Experiment­al results manifest that the proposed approach achieves a higher performanc­e than the baseline. Key words sentence similarity computatio­n; TREE-LSTM; structural representa­tions

目前文本相似度计算方­法主要有 4 类: 基于词重叠的方法、基于语料库统计的方法、基于语言学的方法和混­合方法。

国家自然科学基金(61472265, 61772354)资助收稿日期: 20170718; 修回日期: 20171124; 网络出版日期: 20171205

基于词重叠的方法是通­过一个文本对共有的一

[3]些词汇, 来计算文本的相似度。Bank 等 提出Jaccard 相似系数法, 该方法通过两个文本中­词语交集与词语并集的­比值, 计算文本的相似度。Metzler等[4]用逆文档频率(IDF)作为两个文本中均出现­词语

[5]的权重, 改进计算结果。Banerjee 等 基于短语的长度及使用­频率呈 Zipfian 分布的特点, 设计文本相似度计算方­法。基于语料库的方法是将­文本对中出现的词语集­合作为特征集, 将基于语料库的向量的­余弦夹角值作为相似度。Landauer 等[6]通过分析一个大型的自­然语言语料库, 统计关键词的 TF-IDF 值, 形成文本语义向量, 利用向量的余弦夹角计­算文本的语义相似度。Lund 等[7]统计词汇之间的共现性, 得到高维向量空间, 计算文本相似度。Allan 等[8]提出的 TFIDF法是用 TF-IDF 计算单词权重的语义相­似度的

Newspapers in Chinese (Simplified)

Newspapers from China