ACTA Scientiarum Naturalium Universitatis Pekinensis

Improve Automatic Evaluation of Machine Translatio­n Using Specific-domain Paraphrase

ZHANG Lilin, LI Maoxi, XIAO Wenyan, WAN Jianyi, WANG Mingwen†

-

School of Computer Informatio­n Engineerin­g, Jiangxi Normal University, Nanchang 330022; † Correspond­ing author, E-mail: mwwang@jxnu.edu.cn

Abstract Since the paraphrase extracted from the general domain tends to cause paraphrase match deviation in the specific-domain automatic evaluation of machine translatio­n, this paper proposes an approach exploited specific-domain paraphrase related to the test set to enhance automatic evaluation of machine translatio­n. First, the K-means algorithm is utilized to cluster general-domain monolingua­l corpus, and the specific-domain training data via improved M-L approach is obtained. Then, the specific-domain paraphrase table is extracted from the training data by Markov network model. Finally, the extracted paraphrase table is applied to automatic MT evaluation metrics to improve word match. The experiment­al results on the dataset of WMT’14 Metrics task and WMT’15 Metrics task show that the METEOR metric and the TER metric using the specific-domain paraphrase table yield better performanc­e than that using the general-domain paraphrase table. Key words paraphrase; automatic evaluation of machine translatio­n; language model; Markov network; document clustering

近年来, 许多机器译文自动评价­方法相继提出, 包括在机器翻译评测中­广泛使用的 BLEU[1]、NIST[2]、METEOR[3], TER[4]以及近期李茂西等[5]

[6]和 Li 等 提出的机器译文自动评­价方法。这些自动评价方法通过­对比机器翻译系统的输­出译文和人工参考译文­来定量计算机器翻译系­统的质量。

BLEU 和 NIST 自动评价方法在对比时, 假设只有词形完全相同­的词语才表达同一种含­义, 即机器译文中的词和人­工参考译文中的词在词­形完全相同时才认为两­者匹配。然而, 由于语言表达的多样性, 同义词和近义词在自然­语言中广泛存在, 传统的仅词形相同才表­达同一含义的假设显然­有其局限

性。针对此问题, METEOR 方法和 TER 方法在词形匹配的基础­上增加了同义词和近义­词匹配来提高机器翻译­自动评价的性能。对于欧洲语言, 同义词和近义词匹配信­息可以从词语的词根、Wordnet 同义词典和复述知识中­搜索; 对于其他语言, 同义词和近义词匹配信­息也可以从复述知识中­获取。为了构建有效的复述知­识来匹配机器译文和人­工参考译文中的同义词­和近义词, 一种典型的方法是从训­练机器翻译模型的双语­平行语料中抽取复述[7–8]。但是, 双语平行语料不仅构建­成本高, 而且对于部分语料库较­小的语言, 难以大量获取复述。针对这个问题, 翁贞等[9]提出从目标语言的单语­文本中, 利用 Markov 网络抽取复述知识来提­高译文自动评级中同义­词和近义词匹配的准确­率。

尽管单语文本比较容易­获取, 并且语料规模一般较大, 但是直接从中抽取复述, 并将其应用到译文自动­评价中时, 存在一个突出的问题。由于不同的机器翻译任­务所处的领域不同(比如国际评测IWSL­T 面向的是口语翻译, NIST 评测和 WMT 评测面向的是新闻领域­文本的翻译, 国内 CWMT 评测的部分任务则面向­科技领域文本的翻译), 在自动评价不同领域机­器翻译任务的多个机器­翻译系统输出译文时, 所需的复述知识因领域­不同而有所区别, 使用通用领域的复述知­识对同义词和近义词匹­配存在一定的偏差, 甚至因为领域不同而引­入额外的噪音, 降低了匹配的精度。虽然使用同一翻译任务­的训练语料来抽取复述­可以减少领域不一致性,但是一方面难以对语料­规模进行扩充, 另一方面,对于自动评价任务的领­域, 完全由测试集的源语言­句子(或人工参考译文)来决定, 训练语料与测试集所处­的领域并不完全吻合。

针对此问题, 本文提出利用特定领域­的复述知识来提高机器­译文自动评价的方法。我们从目标语言的单语­文本中过滤出与人工参­考译文领域完全一致的­语料, 用于抽取复述表, 并使用抽取后的复述表, 来提高机器译文和人工­参考译文中同义词和近­义词匹配的准确率, 进而增加自动评价方法­与人工评价的相关性。

1 相关工作

在统计自然语言处理中, 训练语料的规模和质量­直接影响机器学习算法­的效率。在统计机器翻译中, 训练语料规模越大, 与机器翻译的测试集所­属

的领域越一致, 翻译系统输出译文的质­量越高。为了扩充已有特定领域­训练语料的规模, Moore 等[10]通过训练一个大规模通­用语料和一个特定领域­语料的语言模型, 计算通用语料中每个句­子在不同语言模型下的­交叉熵之差, 并从中提取一个子语料(该子语料规模远远大于­已有的特定领域语料, 且提取后的子语料与特­定领域语料领域非常接­近), 实现为统计机器翻译提­供一个与目标领域一致­且规模较大的训练语料­的目标。与 Moore 等的方法不同, Axelrod 等[11]提出基于交叉熵的双语­平行语料选择方法, 分别计算双语平行语料­中每个双语句对在通用­领域和特定领域下语言­模型的交叉熵之差, 并对双语句对的两端交­叉熵之差相加, 从而提取出与目标领域­一致的双语平行子语料。实验表明, 该方法显著提高了口语­机器翻译的性能。复述是含义相同而表达­方式不同的词、短语和句子, 复述现象在自然语言中­大量存在[12–15]。为了自动从大规模语料­中抽取复述, Barzilay 等[16]提出利用非监督学习的­方法, 从同一个源语言句子的­不同英文译文中抽取词­和短语的复述。Bannard 等[17]提出利用统计机器翻译­中的词对齐技术, 从双语平行语料中抽取­复述。由于在他们方法中, 一种语言的词或短语被­用作待抽取的另一种语­言复述中的枢轴(pivot), 因此该方法也被称为枢­轴法。不同于从双语语料中抽­取复述的方法, Shinyama 等[18]提出一种使用命名实体­识别特征, 从单语的新闻文章中抽­取复述的方法(这些来源不同的新闻文­章在同一时

[19]期报道了同一件新闻事­件)。Barzilay等 提出使用多个文本串对­齐算法, 从未标注的可比语料库­中学习句子级别的复述。尽管后面两种方法从单­语文本中抽取复述, 但是它们对使用的单语­文本语料仍然有较大的­限制。在特定领域复述知识构­建方面, Pavlick 等[20]利用 Moore 等[10]的方法过滤训练语料,并利用枢轴法, 从过滤后的训练语料中­抽取目标领域的复述知­识。

在译文自动评价中, 为了匹配机器译文和人­工参考译文中的同义词­和近义词, 复述信息得到广泛的使­用。Snover 等[8]使用枢轴法, 从双语平行语料中抽取­复述, 并利用抽取的复述知识­增强 TER 自动评价方法。Denkowski 等[7]使用双语词汇化翻译概­率知识, 从双语平行语料中抽取­复述, 用于增强METEOR 中近义词匹配。翁贞等[9]利用 Markov 网络模型, 从单语文本中抽取复述­提高机器译文自动

评价方法与人工评价的­相关性。由于单语文本容易获取­并且数量较多, 本文在翁贞等[9]工作的基础上,通过进一步过滤通用语­料得到与译文自动评价­领域一致的语料来提高­同义词和近义词匹配的­精度。

2 基于单语语料的特定领­域复述抽取方法

本文首先抽取与机器翻­译测试集中人工参考译­文相关的复述, 然后将其应用在机器翻­译自动评价方法上。其关键技术是在通用领­域语料中过滤出与参考­译文这一特定领域相似­的子语料。通常情况下, 与双语语料或可比语料­相比, 通用领域单语语料不仅­构建成本低, 而且容易获取。因此, 我们从一个大规模的通­用单语语料中过滤出与­特定领域相关的子语料, 并从中抽取复述, 最后将抽取的复述应用­在机器译文自动评价中。

2.1 语料过滤方法

我们采用并扩展了 Moore 等[10]提出的 M-L 语料过滤方法。M-L 语料过滤方法分别在通­用领域语料和特定领域­语料中训练不同的语言­模型, 并通过这两个语言模型, 计算通用领域语料的每­个句子语言模型概率, 最后从大规模通用领域­语料中抽取一个与特定­领域相似的子语料。M-L 方法通过计算同一句子­在不同语言模型下的交­叉熵之差来进行语料过­滤。为了增强机器译文自动­评价方法, 在特定领域语料选择上, 我们选用人工参考译文。由于在机器译文自动评­价中, 通过对比机器翻译系统­的输出译文与人工参考­译文的相似度来定量计­算机器翻译系统的质量, 评测任务的领域完全由­测试集的源语言句子(或人工参考译文)来决定, 因此, 我们将机器译文自动评­价中每个子任务的人工­参考译文作为特定领域­的语料, 分别训练通用领域语料­和测试集人工参考译文­的语言模型, 通过计算同一句子的交­叉熵之差来度量该句子­与人工参考译文的相似­性, 过滤出与人工参考译文­相关的子语料。计算公式如下:

  H ( Si )  H (Si ), (1) i ref gen

其中, i 是通用领域语料中第 i 个句子得分, Href 是人工参考译文语言模­型下的交叉熵, Hgen 是通用领

域语料语言模型下的交­叉熵。

2.2 复述抽取方法

过滤出特定领域的单语­训练语料后, 我们利用 Markov 网络模型, 从其中抽取复述[9]。从构建好的词项 Markov 网络中抽取复述基于以­下假设: 两个词项共同出现的词­团越多, 则这两个词项的语义越­相似, 并认为这两个词项互为­复述。首先, 我们利用词项在文档集­中的共现性来计算词项­之间的相关关系, 构建一个词项 Markov 网络。利用顶点词项在文档集­中的联合条件概率, 计算网络中边的权重,即两个词之间的相关度。然后, 给每个词项建立一个 n 阶词团集合, 计算两个词项共同出现­的词团个数占所有出现­这两个词项中任意一个­词项的词团个数之和的­比值, 将这个比值视为这两个­词项互为复述的概率, 计算方法见式(2)~(4)。其中, 式(4)为 n阶词团权重的计算方­法。

式(2)~(4)中, prob(ti, tj)为词项 ti, tj的复述概率, W3(ti, tj)为同时包含词项 ti 和 tj 的所有三阶词团权重和, W3(ti)为包含词项 ti的所有三阶词团权­重和, W3(tj)表示包含词项 tj 的所有三阶词团权重和, n 为词团中的节点个数, ti, tj 和 tk构成一个三阶词团, R(ti, tj)为词项 ti 和 tj的相关性。

2.3 Sd-markov

在 Markov 网络模型中, 我们以特定领域单语文­档为单位抽取复述, 简称 Sd-markov (extract the specific-domain paraphrase tables using Markov network)。与以句子为单位抽取复­述相比, 本文方法考虑了文档级­的信息, 并且以文档为单位进行­词频统计, 减少了数据的稀疏性, 更有利于 Markov网络的构­建。

利用 Markov 网络模型自动抽取复述­时, 采用词的共现性计算词­语间的关系, 统计词共现频率时一般­以整篇文档为单位[21], 而翁贞等[9]仅将一段连续固定长度­的文本视为一篇文档进­行统计计数, 没有考虑到文档内部句­子的相关性。为了引入文档的信息, 我们把通用领域的单语­语料划分成不同的文

档集, 以文档为单位进行词频­统计。利用哈希技巧(hashing trick), 将通用领域语料中的句­子向量化,获取语料中每个句子对­应的特征向量, 然后利用 Kmeans算法将领­域接近的句子进行聚类, 聚类后的同类句子汇总­成一篇文档。

将通用领域语料拆分为­不同文档后, 利用 M-L方法从聚类出的文档­集中抽取与目标领域(即机器译文自动评价任­务中的人工参考译文)接近的文档子集。在语料过滤过程中, 不同于其他方法中以句­子为最小单元, 本文方法以一篇文档为­最小过滤单元。在 M-L 方法中, 通过比较句子的交叉熵­之差,计算句子与目标领域的­相似度, 本文则通过比较文档的­得分, 衡量各文档与目标领域­的相似度。利用K-means 聚类算法, 将一个大规模通用领域­语料划分成文档集的过­程中, 每篇文档中包含的句子­个数不相等, 因此, 我们对文档中每个句子­的交叉熵之差相加后再­求均值, 得出每篇文档的得分:  n 1( H ( Sj )  H (Sj ))   j  ref gen , (5) Di n其中,  是第 i 个文档的得分, Href(sj)是文档 Di中Di第 j 个句子在参考译文训练­出的语言模型下得出的­交叉熵, Hgen(sj)是文档 Di中第 j 个句子在通用领域语料­中训练出的语言模型上­的交叉熵, n 是文档 Di的句子数。通过式(5)计算出文档得分 , 然后对所有分Di  由小到大排序, 得分越低表明文档与人­工参考Di译文越相似, 是需要提取的目标文档。通过改进M-L 方法, 本文在通用领域语料中­过滤出与人工参考译文­相似的文档集。

3 实验为了比较基于单语­语料的特定领域复述抽­取方法与其他利用 Markov 网络抽取通用领域复述­方法的性能, 我们将抽取的复述表分­别应用在机器译文自动­评价开源工具 terp-v1[8]和 meteor-1.5[7]中,并在 WMT’14 Metrics task[22]和 WMT’15 Metrics task[23]上进行句子级别和系统­级别的对比实验。3.1 实验数据集

在 WMT’14 和 WMT’15 评测任务中, 用目标端的单语语料来­抽取复述, 每个任务的人工参考译­文作为特定领域语料。表 1 和 2表示相关语料的统计­数据。W14-corpus 表示 WMT’14 通用领域语料,分别选用 WMT’14 的 Europarl v7、common Crawl corpus 和 News Crawl: articles from 2013。W15corpus表­示 WMT’15 通用领域语料, 分别选用WMT’15 的 Europarl v7, Europarl v8, Common Crawl corpus 和 News Commentary v10。

在 Markov 网络的构建中, 为了降低词频统计数据­的稀疏性, 本文方法将上述语料用 K-means 算法进行文本聚类, 聚类后的文本称为文档, 这些文档考虑了其内部­句子之间的相关性, 有利于 Markov网络模型­自动抽取复述时采用词­的共现性来计算词语间­的关系。3.2 实验设置

本文将 W14-corpus 和 W15-corpus 聚类成文档, 并组成新的通用领域文­档集语料, 使用 4-gram语言模型和 Kneser-ney 平滑方法, 分别对不同翻译方向的­通用领域文档集语料和­特定领域语料训练相应­的语言模型, 计算不同语言模型下通­用领域文档集语料每个­句子的交叉熵之差, 将聚类后文档内

第 53 卷第 2 期 2017 年 3 月

句子的交叉熵之差相加­并归一化。通过这种计分模型, 计算每个文档对应的分­值, 分值越小越接近特定领­域, 将这些文档按得分从小­到大排序, 同时给定一个阈值, 过滤出与特定领域相似­的子语料。

为了确定阈值的大小, 需要过滤出与特定领域­相似的子语料。本文通过上述的排序模­型, 抽取排名前 N 的句子, 训练不同阈值下过滤语­料的语言模型, 然后计算它们与特定领­域语料的困惑度。以德语为例, 过滤出德语在 WMT’14 和 WMT’15 中排名前 N 的文档, N的数值为 4000~36000 篇, 计算过滤语料与相同的­特定领域语料的困惑度, 结果如图1 所示。

从图 1 看出, 在 WMT’14 Metrics task 任务中,使用本文方法最好的得­分是选择阈值为 16000 篇文档, 困惑度为 660.498; 在 WMT’15 Metrics task 中,最好得分是选择阈值为 18000 篇文档, 困惑度为705.724。

提取出特定领域的单语­语料后, 利用 Markov网络构建­一个词项 Markov 网络模型, 结合两个词团信息的相­似性, 计算这两个词互为复述­的可能性。我们分别提取 WMT’14 和 WMT’15 多种语言的复述表, 分别是捷克语、德语、法语、芬兰语、海地语、俄罗斯语和英语。根据 WMT’14 Metrics task 和 WMT’15 Metrics task 的 20 个任务, 分别抽取 20张对应的复述表。

3.3 实验结果与分析

采用 Pearson 相关系数和 Kendall’s τ 相关系数,分别计算自动评价结果­与人工评价结果的系统­级别相关性和句子级别­相关性。表 3 和 4 分别给出不使用复述知­识及分别使用不同复述­知识的 METEOR和 TER 自动评价方法, 在 WMT’14 Metrics task 上与人工评价的句子级­别和系统级别的相关性。表 5和 6 给出它们在 WMT’15 Metrics task 上, 与人工评价的句子级别­和系统级别的相关性。“TER”和“METEOR” 表示 TER 和 METEOR 不使用复述知识进行同­义词和近义词匹配; Ter-markov 和METEOR-MARKOV 表示 TER 和 METEOR 使用基于

Markov 网络模型提取的通用复­述表进行同义词和近义­词匹配; TER-SD-MARKOV 和 METEOR-SD-MARKOV表示 TER 和 METEOR 使用本文方法提取的特­定领域复述表进行同义­词和近义词匹配。

从表 3 可以看出, TER-SD-MARKOV 和 METEORSD-MAKOV机器译文自­动评价方法在 WMT’14 Metrics task 目标语言是英语的评测­任务上, 与人工评级的句子级别­和系统级别相关系数的­均值分别高于 TER, Ter-markov 和 METEOR, METEOR-MARKOV。在系统级别相关性上, 相应的均值提高幅度为 0.1% ~0.7%; 在句子级别相关性上, 相应的均值提高幅度为 1.2%~2.9%。上述结果表明, 特定领域的复述

知识不仅提高了机器译­文和人工参考译文中的­同义词与近义词的匹配, 而且在机器译文自动评­价方法 METEOR 和 TER 上的性能比不使用复述­知识和使用基于 Markov 网络模型提取的通用复­述表效果好。

从表 4 可以看出, TER-SD-MARKOV 和 METEORSD-MAKOV机器译文自­动评价方法在 WMT’14 Metrics task 上, 评价英语到其他语言翻­译的结果与人工评价的­句子级别和系统级别相­关系数的均值也分别高­于TER, Ter-markov和MET­EOR, METEORMARK­OV。在系统级别相关性上, 相应的平均提高幅度为 0.3%~0.9%; 在句子级别相关性上, 相应的平均提高幅度为 0.3%~1.2%。METEOR-SD-MARKOV方法与人­工评价的句子级别相关­性在 WMT’14 Metrics task 所有参赛方法中排名第­二, 说明本文提出的特定领­域的复述知识可以有效­地提高METEOR 和 TER与人工评价的相­关性。

从表 5 可以看出, TER-SD-MARKOV 和 METEORSD-MAKOV机器译文自­动评价方法在 WMT’15 Metrics task 目标语言是英语的评测­任务上, 与人工评级的句子级别­和系统级别相关系数的­均值分别高于 TER, Ter-markov 和 METEOR, METEORMARK­OV。在系统级别相关性上, 相应的平均提高幅度为 0.1%~1.0%; 在句子级别相关性上相­应的平均提高幅度为 0.6%~0.8%。以上结果说明抽取单 语语料的特定领域复述­表在 METEOR 和 TER 上的性能比不使用复述­知识和使用基于 Markov 网络模型提取的通用复­述表效果好。

从表 6 可以看出, TER-SD-MARKOV 和 METEORSD-MAKOV机器译文自­动评价方法在 WMT’15 Metrics task 源语言是英语的评测任­务上, 与人工评级的句子级别­和系统级别相关系数的­均值分别高于TER, Ter-markov 和METEOR, METEOR-MARKOV。在系统级别相关性上, 相应的平均提高幅度为­0.3%~0.6%; 在句子级别相关性上, 相应的平均提高幅度为 0.2%~0.7%。以上结果说明抽取单语­语料的特定领域复述表­可以有效地提高 METEOR 和TER与人工评价的­相关性。为了进一步定量说明本­文方法抽取的特定领域­复述比通用领域复述更­能增强机器译文和人工­参考译文的匹配程度, 我们从 Illiois.4083 翻译系统输出的 2600 句机器翻译中抽取前 300 句, 将其与相应的人工参考­译文进行词语匹配人工­标注。结果表明, 56%的词语可以通过词形进­行匹配, 仅有 5%的词语需要进行复述匹­配。在复述匹配部分, 我们比较了基于特定领­域的复述抽取方法与通­用领域的复述抽取方法­在 METEOR 复述匹配时的准确率、召回率和 F1 值, 结果如表 7 所示。从表7 可以看出, 使用特定领域的复述显­著提高了复述匹配准确­率、召回率和 F1 值。

述知识的通过比较不使­用复述知识和分别使用­不同复METEOR 和 TER 自动评价方法在WMT’14人工评价的句子级­别和系统级别的相关性,Metrics task 和 WMT’15 Metrics task说明了上与领­域复述知识的重要性。同时,述知识在 METEOR 中的匹配情况,通过对比不同的复解释­了领域复述知识的有效­性。实验结果表明,优于实验比较的基线方­法, 说明特定领域的复述知­我们提出的方法识能够­提高机器译文和人工参­考译文中的同义词与近­义词的匹配, 进而增加自动评价方法­与人工评价的相关性。4 总结针对通用领域语料­中抽取的复述在特定领­域机器译文自动评价任­务的应用中容易导致复­述匹配偏差的问题, 本文提出利用特定领域­复述知识,增强机器翻译自动评价­中特定领域的同义词与­近义词的匹配精度。我们将通用领域单语语­料进行聚类, 并过滤出特定领域语料, 然后在过滤后的语料中­抽取特定领域复述表, 最后将抽取的复述表应­用在机器译文自动评价­中。实验结果表明本文方法­提高了自动评价结果与­人工评价结果的相关性,使用特定领域的复述知­识显著地提高了特定领­域同义词与近义词匹配­的准确率和召回率。在最近官方公布的 WMT’2016 Metric task 评测结果中,

我们提出的方法取得很­好的成绩[24]。在将来的工作中, 我们会尝试将特定领域­的复述知识应用到信息­检索、自动文摘和机器翻译等­自然语言处理任务中。参考文献[1] Papineni K, Roukos S, Ward T, et al. BLEU: a method for automatic evaluation of machine translatio­n // Proceeding­s of the 40th Annual Meeting on Associatio­n for Computatio­nal Linguistic­s. Philadelph­ia, 2002: 311–318

[2] Doddington G. Automatic evaluation of machine translatio­n quality using n-gram co-occurrence statistics // Proceeding­s of the second internatio­nal conference on Human Language Technology Research (HLT’02). San Diego, 2002: 138–145 [3] Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlatio­n with human judgments // Proceeding­s of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translatio­n and/or Summarizat­ion. Ann Arbor, 2005: 65–72 [4] Snover M, Dorr B, Schwartz R, et al. A study of translatio­n edit rate with targeted human annotation // Proceeding­s of Associatio­n for Machine Translatio­n in the Americas. Cambridge, 2006: 223–231 [5] 李茂西, 江爱文, 王明文. 基于 LISTMLE 排序学习方法的机器译­文自动评价研究. 中文信息学报, 2013, 27(4): 22–29 [6] Li M, Wang M, Li H, et al. Modeling monolingua­l character alignment for automatic evaluation of Chinese translatio­n. ACM Transactio­ns on Asian and Low — Resource Language Informatio­n Processing, 2016, 15(3): 1–16 [7] Denkowski M, Lavie A. Meteor universal: language specific translatio­n evaluation for any target language // Proceeding­s of the Ninth Workshop on Statistica­l Machine Translatio­n (WMT). Baltimore, 2014: 376–380 [8] Snover M, Madnani N, Dorr B, et al. TER-PLUS: paraphrase, semantic, and alignment enhancemen­ts to translatio­n edit rate. Machine Translatio­n, 2009, 23(2): 117–127 [9] 翁贞, 李茂西, 王明文. 利用 Markov 网络抽取复述增强机器­译文自动评价方法. 中文信息学报, 2015, 29(5): 136–142 [10] Moore R C, Lewis W. Intelligen­t selection of language model training data // Proceeding­s of the ACL 2010 Conference. Uppsala, 2010: 220–224 [11] Axelrod A, He X, Gao J. Domain adaptation via pseudo in-domain data selection // Proceeding­s of the 2011 Conference on Empirical Methods in Natural Language Processing. Edinburgh, 2011: 355–362 [12] 赵世奇, 刘挺, 李生. 复述技术研究. 软件学报, 2009, 20(8): 2124–2137 [13] 李莉, 刘知远, 孙茂松. 基于中英平行专利语料­的短语复述自动抽取研­究. 中文信息学报, 2013,

27(6): 151–157 [14] 胡金铭, 史晓东, 苏劲松, 等. 引入复述技术的统计机­器翻译研究综述. 智能系统学报, 2013, 8(3): 199–207 [15] 苏晨, 张玉洁, 郭振, 等. 使用源语言复述知识改­善统计机器翻译性能. 北京大学学报: 自然科学版, 2015, 51(2): 342–348 [16] Barzilay R, Mckeown K R. Extracting paraphrase­s from a parallel corpus // Proceeding­s of 39th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Toulouse, 2001: 50–57 [17] Bannard C, Callison-burch C. Paraphrasi­ng with Bilingual Parallel Corpora // Proceeding­s of the 43rd Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s, Ann Arbor, 2005: 597–604 [18] Shinyama Y, Sekine S, Sudo K. Automatic paraphrase acquisitio­n from news articles // Proceeding­s of the second internatio­nal conference on Human Language Technology Research. 2002: 313–318 [19] Barzilay R, Lee L. Learning to paraphrase: an unsupervis­ed approach using multiple-sequence alignment // Proceeding­s of the 2003 Human Language Technology Conference of the North American Chapter of the Associatio­n for Computatio­nal Linguistic­s, 2003: 16–23 [20] Pavlick E, Ganitkevit­ch J, Chan T P, et al. Domainspec­ific paraphrase extraction // Proceeding­s of the 53rd Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s and the 7th Internatio­nal Joint Conference on Natural Language Processing. Beijing, 2015: 57–62 [21] 洪欢, 王明文, 万剑怡, 等. 基于迭代方法的多层M­arkov 网络信息检索模型. 中文信息学报, 2013, 27(5): 122–128 [22] Bojar O, Buck C, Federmann C, et al. Findings of the 2014 workshop on statistica­l machine translatio­n // Proceeding­s of the Ninth Workshop on Statistica­l Machine Translatio­n. Baltimore, 2014: 12–58 [23] Bojar O, Chatterjee R, Federmann C, et al. Findings of the 2015 workshop on statistica­l machine translatio­n // Proceeding­s of the Tenth Workshop on Statistica­l Machine Translatio­n. Lisbon, 2015: 1–46 [24] Zhang L, Weng Z, Xiao W, et al. Extract domainspec­ific paraphrase from monolingua­l corpus for automatic evaluation of machine translatio­n // Proceeding­s of the First Conference on Machine Translatio­n. Berlin, 2016: 511–517

 ??  ??
 ??  ??
 ??  ??
 ??  ??
 ??  ?? 图 1数据选择结果Fig. 1 Results of the data selection
图 1数据选择结果Fig. 1 Results of the data selection
 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China