ACTA Scientiarum Naturalium Universitatis Pekinensis
融合词法句法分析联合模型的树到串EBMT方法
王丹丹 徐金安† 陈钰枫 张玉洁 杨晓晖
北京交通大学计算机与信息技术学院, 北京 100044; † 通信作者, E-mail: jaxu@bjtu.edu.cn
摘要 针对传统的基于实例的机器翻译(EBMT)方法中系统构筑复杂度和成本较高的问题, 提出一种基于依存树到串的汉英实例机器翻译方法。与传统方法相比, 该方法只需进行源语言端的句法结构分析, 可以大大降低构筑系统的复杂度, 有效降低成本。为了提高翻译精度, 引入中文分词、词性标注和依存句法分析联合模型, 可以减少汉英 EBMT 中源语言端基础任务中的错误传递, 提高提取层次间特征的准确性。在此基础上, 结合依存结构的特征和中英语料的特性, 对依存树到串模型进行规则抽取以及泛化处理。实验结果表明,相对于基线系统, 该方法可以提高实例对抽取质量, 改善泛化规则和译文质量, 提高系统性能。关键词 基于实例的机器翻译; 依存树到串模型; 联合模型; 泛化模板中图分类号 TP391