ACTA Scientiarum Naturalium Universitatis Pekinensis
An Approach of Sentence Similarity on TREE-LSTM
YANG Meng, LI Peifeng†, ZHU Qiaoming
Department of Computer Science and Technology, Suchow University, Suzhou 215006; † Corresponding author, E-mail: pfli@suda.edu.cn
相似度计算是自然语言处理的基础工作。句子相似度计算的目标是学习一个得分系统, 给定一对句子, 该系统返回相似度得分。例如, 分数范围为0~5, 0 代表这对句子含义完全无关, 5 代表含义相同。大多数句子相似度计算方法是将句子对视为一个平面特征向量, 每个特征是某特定方面(词汇、句法和语义等)相似度计算的结果。这种方法存在局限性, 用平面特征向量代表文本对的相似度, 表征性较弱。随着神经网络方法的再度流行, 相关研究表明, TREE-LSTM (long short-term memory)方法可以充分利用结构化特征得到更多信息[1–2]。
1 相关工作
Abstract Based on the shallow tree and dependency tree, the authors introduce the structural representations, NPST (new phrase-based shallow tree) and NPDT (new phrase-based dependency tree) to TREE-LSTM to compute sentence similarity. Experimental results manifest that the proposed approach achieves a higher performance than the baseline. Key words sentence similarity computation; TREE-LSTM; structural representations
目前文本相似度计算方法主要有 4 类: 基于词重叠的方法、基于语料库统计的方法、基于语言学的方法和混合方法。
国家自然科学基金(61472265, 61772354)资助收稿日期: 20170718; 修回日期: 20171124; 网络出版日期: 20171205
基于词重叠的方法是通过一个文本对共有的一
[3]些词汇, 来计算文本的相似度。Bank 等 提出Jaccard 相似系数法, 该方法通过两个文本中词语交集与词语并集的比值, 计算文本的相似度。Metzler等[4]用逆文档频率(IDF)作为两个文本中均出现词语
[5]的权重, 改进计算结果。Banerjee 等 基于短语的长度及使用频率呈 Zipfian 分布的特点, 设计文本相似度计算方法。基于语料库的方法是将文本对中出现的词语集合作为特征集, 将基于语料库的向量的余弦夹角值作为相似度。Landauer 等[6]通过分析一个大型的自然语言语料库, 统计关键词的 TF-IDF 值, 形成文本语义向量, 利用向量的余弦夹角计算文本的语义相似度。Lund 等[7]统计词汇之间的共现性, 得到高维向量空间, 计算文本相似度。Allan 等[8]提出的 TFIDF法是用 TF-IDF 计算单词权重的语义相似度的