A Tree-to-string EBMT Method by Integrating Joint Model of Chinese Segmentation and Dependency Parsing

WANG Dandan, XU Jin’an†, CHEN Yufeng, ZHANG Yujie, YANG Xiaohui

ACTA Scientiarum Naturalium Universitatis Pekinensis - - Contents -

School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044; † Corresponding author, E-mail: [email protected]

Abstract In consideration of the complexity and high cost of system construction in traditional examplebased machine translation (EBMT) methods, the authors propose a Chinese-english tree-to-string EBMT method. Compared with the traditional methods, the preposed approach just needed to implement the processing of source language parsing. Word segmentation, POS tagging and dependency parsing were jointed to relieve the affections of error propagation and failure of feature extraction at different levels. Moreover, the authors extracted and generalized bilingual word and phase alignments from examples and templates by using the dependency structure of source language. Experimental results show that the preposed method can achieve better performance significantly than baseline systems. Key words example-based machine translation; dependency tree-to-string model; joint model; generalization template

经过 50 多年的发展, 已形成多种机器翻译方法。20 世纪 90 年代以来, 逐渐形成三大主流方法:基于规则的机器翻译、基于统计的机器翻译和基于实例的机器翻译。基于实例的机器翻译(examplebased machine translation, EBMT)方法由日本学者长尾真(Makoto Nagao)于 1981 年提出, 并于 1984 年发表[1]。长尾真提出的基于实例的机器翻译方法借

鉴了日本人初学英语时翻译句子的过程, 在翻译简单句子时, 不对句子进行深层次的分析, 而是将句子分解为几个片段, 借助已有的片段翻译结果, 对每个片段进行翻译, 最后将目标语片段进行重组得到句子翻译结果[2]。

EBMT系统的研究主要围绕翻译模型(相似实例检索、对齐与译文生成)以及为其服务的双语对

齐实例库的构建进行[3]。在 EMBT 研究的早期, 往往不对原始双语语料做预处理, 而是直接基于简单句子构成的实例库构建翻译模型。Somers 等[4]使用由简单句子构成的实例库, 采用以字符为单位的最短编辑距离方法, 以动态规划的算法来实现相似实例检索。在开源 EBMT 平台 Cunei[5]中, 先根据词串匹配长度的阈值对实例进行筛选, 再根据词性、词类等特征选择最相似的实例。这种以字符或词语为对象, 采用编辑距离计算词串相似度的方法虽然易于实现, 但是存在数据稀疏的问题。

为了解决数据稀疏的问题, 许多学者采用泛化的双语实例构建翻译模型。泛化实例的概念最早由Och 等[6]提出, 并应用在机器翻译中。他们将双语中所有的词泛化为不同的词类, 对词类进行对齐处理, 再将词类翻译成词, 得到最终的翻译结果。虽然实例泛化的方法解决了实例覆盖率低的问题, 但是基于字符串表示的相似实例检索仍属于一种表层的关系, 难以反映语言的内在规律, 无法获得高质量的译文。

现阶段, EBMT 普遍采用句法结构树的形式存储双语实例, 借助语言学知识指导机器翻译的过程[710]。基于结构化实例的 EBMT 多采用依存树到依存树的实例存储方式。日本学者佐藤研制的MBT1[7]和 MBT2[8]系统是著名的基于实例的机器翻译系统。其中 MBT2 采用依存树到依存树的方式存储翻译实例。系统根据待翻译的源语言词汇依存树检索相似实例, 利用检索到的实例碎片形成源匹配表达式。在译文生成阶段, 将目标匹配表达式表示成目标语言词汇依存树的形式生成译文。虽然用这种方法可以得到高质量的译文, 但需要基于数量级巨大的数据库。为了在保证译文质量的前提下缩小数据库规模, 日本京都大学黑桥实验室提出 KYOTOEBMT 系统[9]。该系统在依存树到依存树的双语实例中引入泛化的方法, 抽取所有子树实例对, 并对部分叶节点进行泛化处理。当输入一个待翻译句子时, 首先将其完整的依存树分解为子树的形式, 并在实例库中搜索相似的实例片段, 重组生成的译文树片段并生成译文。Vandeghinste 等[10]将实例表示为短语结构树的形式, 并将短语结构树分解成包含名词短语的子数组, 作为名词短语转化规则存储起来。在进行相似实例检索时, 将名词短语作为标记, 并对其 余非名词短语的单词进行完全的匹配, 从而选取最大匹配的结构作为译文。虽然基于结构树到结构树对齐的实例包含丰富的句法结构信息, 可以大大提高译文的质量, 但是实现过程中有两大难点: 1) 对于很多语言, 并不存在质量较高的句法分析器; 2) 对于不同语系的语言,句法结构存在较大的差异, 难以建立精确的对应关系[11]。

为解决上述问题, Liu 等[12]提出一种基于 TSC (tree-string correspondence)的半结构化实例的英汉机器翻译方法, 源语言采用短语结构树的形式存储,目标语言采用词串的形式进行存储。对于输入的待翻译句子, 先对句子进行句法分析, 再在实例库中寻找与其匹配的树。采用基于树间语义相似度、双语实例的词汇翻译概率以及目标语语言模型 3 个特征的统计生成模型并获得译文。

以上基于结构化实例的 EBMT 方法在翻译过程中, 相似实例检索、实例对齐以及译文生成均需围绕结构化实例进行。相对于非结构化实例, 结构化的实例虽然融合了更多的语法信息, 可以得到更高质量的译文, 但需要以准确的句法分析结果为前提。在结构化 EBMT 的研究中, 研究者们多将重点放在如何提升相似实例的匹配度上, 忽略了生成结构化实例的准确性。由于结构化实例的获得一般需要对原始语料做分词、词性标注和句法分析的预处理, 传统管道式的方法极易造成错误的迭代传递,进而影响系统的翻译性能。因此, 如何提高结构化实例的准确率, 进而提升 EBMT 系统的翻译性能具有重要的研究价值。

1 系统架构

本文的 EBMT 系统主要由两大模块构成: 依存树到串实例库构建模块和翻译模块, 系统架构如图1 所示。在进行翻译前, 实例库构建模块先分别对汉英双语语料进行预处理及对齐处理, 然后抽取并泛化得到依存树到串实例库。在翻译模块中, 对于输入的中文句子, 先采用中文词法句法分析联合模型将其表示为依存树的形式, 再在泛化的依存树到串实例库中检索相似实例, 得到一系列候选译文,最后根据对数线性模型的得分, 对生成的候选译文进行排序, 选取得分最高的 1-best 译文作为系统的最终翻译结果。

2 依存树到串泛化实例库构建

本文以汉英翻译为例, 采用结构化依存树到串的形式存储对齐的双语语料。在构建依存树到串汉英双语语料库时, 采用中文词法句法分析联合模型对汉语源语言进行预处理。

2.1 中文词法句法分析联合模型

词法分析、句法分析和语义分析是中文信息处理的主要任务。词法分析主要包括分词、词性标注和未登录词识别等子任务。分词、词性标注和句法分析是机器翻译的重要技术环节。传统机器翻译方法通常将分词、词性标注及句法分析看做一个管道, 进行分步骤、分层次的处理, 容易发生已有错误迭代传递的现象, 导致各个层次间的部分特征无法正确获取和利用, 影响翻译质量。

郭振等[13]利用词语内部结构, 将基于词语的依存句法树扩展为基于字符的依存句法树(如图 2 所示), 以解决不同任务间字串的粒度冲突问题。该模型结合了 N-gram 序列特征和依存子树特征, 对 语料进行半监督训练, 获取半生语料, 通过其中蕴含的丰富信息提高联合模型的性能。

本文提出的 EMBT 方法引入郭振等[13]提出的联合分析方法, 旨在降低层次间的错误传递率, 提高翻译质量。一方面, 用于构建 EBMT 的依存树到串双语语料库过程中的各种词法、句法处理及其处理的环节, 以期提高 EBMT 实例库的质量; 另一方面, 在进行翻译处理过程中使用该联合模型, 对输入的汉语句子进行分词、词性标注和依存句法分析。

2.2 构建依存树到串泛化实例库

本文采用依存树到串的形式存储对齐的双语实例, 以汉英翻译为对象进行描述。汉英树到串对齐双语实例的构建过程如下。1) 中文语料预处理。利用中文词法句法分析

[13]联合模型 对源语言中文语料进行分词、词性标注及句法分析。由于该联合模型是基于字符的, 因此本文在对中文语料预处理的过程中, 将原始语料中的每个句子按照字符进行分割, 即可得到以单词为单位、具有词性标注和词间依存关系的中文依存树实例。

2) 英文语料预处理。对英文语料进行小写化及词形还原处理, 在译文生成的最后一步, 相应地增加首字母大写处理的操作。

3) 中英文语料的词串对齐处理。由于单词对

297

齐的准确性直接影响到后续相似实例检索以及最终生成译文的质量, 因此在词对齐阶段要确保对齐的准确性。采用开源工具 GIZA++对汉英双语语料分别进行训练, 得到汉英和英汉的双向词汇对齐, 然后使用 Grow-diag-final 算法[14]对这两个方向分别求交集和并集, 并扩展做对称融合。

经过以上 3 个步骤, 得到句子级的汉英依存树到串对齐实例, 其结构举例如图 3(a)所示。

4) 抽取依存树到串实例(短语级)。考虑到实例库数据稀疏的问题, 本文在生成的依存树到串对齐的双语语料基础上进行片段化实例对的抽取, 并做进一步的泛化处理, 以减少由于数据稀疏无法找到合适实例, 进而出现翻译结果偏差过大的情况。近年来, 短语翻译对的抽取技术大多基于词汇对齐的语料。在依赖词对齐的方法中, Och 等[15]提出的方法在机器翻译中应用最广泛。他们利用平行句对间的词对齐信息抽取短语翻译对, 首先枚举源语言句子中的所有短语片段, 根据词对齐关系寻找每个源语言实例中的单词在目标语实例中对应的最小位置和最大位置, 以此确定目标语区间。若目标语区间中的所有单词对应的源语言单词都在当前源语言实例中, 则抽取该短语翻译对。本文将 Och

[15]等 的经典方法应用到本文短语级依存树到串实例对的抽取中, 抽取方法如下。 ①由于一个依存子树中的词汇能够表达一个完整的语义片段, 因此本文以依存树中的子树为抽取对象。在源语言依存树 D 中依次选取所有由连续单词组成的子树, 根据单词对齐关系 A 得到对应的目标语言单词集合。②根据目标语言词汇集合在原目标语词串中的最大位置 q 和最小位置 p 确定一个区间, 若区间[p, q]内所有词汇对应的源语言词汇都在当前源语言依存树片段 D[i, j]中, 则抽取该短语级的依存树到串实例对。

例如, 对于实例对“建筑市场增大出口数量(construction market increased export volume)”, 将其进行依存树到串的对齐处理后, 结构如图 3(b)所示。为了方便描述实例对抽取的方法, 对每个单词编号。

从图 3(b)中词汇对齐关系, 可以得到所有由连续单词构成的源语言依存子树与其对应的目标语词串的对齐关系, 如表 1 所示。根据对齐关系, 表 1中两对依存树到串实例对的英文单词对应的中文单词都在其相应的依存子树中。因此, 这两对依存树到串实例对是满足要求的, 将其抽取出来。

对于图 3(b)中的依存树到串实例对, 可以抽取出图 4 所示的两个实例对, 并将其加入到双语实例库中。

图 2基于字符的依存句法树Fig. 2 Dependency tree based on character

图 1系统架构Fig. 1 Framework of EBMT system

Fig. 3图 3依存树到串对齐双语实例(句子级) Tree-to-string aligned bilingual example (sentence level)

Table 1 表 1 依存子树到串对应关系Projection of dependency subtree-to-string

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.