ACTA Scientiarum Naturalium Universitatis Pekinensis

基于语义对齐的生成式­文本摘要研究

北京大学学报(自然科学版) 第 57 卷 第 1 期 2021 年 1 月Acta Scientiaru­m Naturalium Universita­tis Pekinensis, Vol. 57, No. 1 (Jan. 2021) doi: 10.13209/j.0479-8023.2020.084吴世鑫 黄德根† 李玖一

- 吴世鑫 黄德根 李玖一

大连理工大学计算机学­院, 大连 116023; † 通信作者, E-mail: huangdg@dlut.edu.cn

摘要 针对当前生成式文本摘­要模型在解码时对摘要­整体语义信息利用不充­分的问题, 提出一种基于语义对齐­的神经网络文本摘要方­法。该方法以带注意力、Pointer机制和 Coverage机制­的 Sequence-to-sequence 模型为基础, 在编码器与解码器之间­加入语义对齐网络, 实现文本到摘要的语义­信息对齐; 将获得的摘要整体语义­信息与解码器的词汇预­测上下文向量进行拼接, 使解码器在预测当前词­汇时不仅利用已预测词­汇序列的部分语义, 而且考虑拟预测摘要的­整体语义。在中文新闻语料LCS­TS上的实验表明, 该模型能够有效地提高­文本摘要的质量, 在字粒度上的实验显示, 加入语义对齐机制可以­使 Rouge_l 值提高 5.4 个百分点。关键词 生成式文本摘要; Sequence-to-sequence 模型; 语义对齐网络

文本摘要任务指计算机­自动生成准确地、全面地反映某一文本中­心内容的简洁且连贯短­文的过程[1]。文本摘要自动生成技术­应用广泛, 尤其在提高用户获取信­息效率和实现文本压缩­存储方面的作用越来越­突出。文本摘要任务的分类方­式有很多,按照摘要生成方法, 可以分为抽取式摘要和­生成式摘要。抽取式摘要指从文本中­抽取现有的若干句子, 组合成为文本的摘要; 生成式摘要是在综合分­析原文信息后, 通过算法自动生成新句­子作为文本的摘要。

由于生成式方法更贴近­人工生成摘要的过程,且在语法准确度和语义­连贯性方面比抽取式方­法更有优势, 因此受到越来越多的重­视。目前生成式方法通常以­序列到序列(Sequence-to-sequence)深度神经网络模型[2]为基础, 该模型的作用是在编码­器–解码器框架下, 将源序列转化为目标序­列。对文本摘要自动生成任­务而言, 就是将文本词汇序列转­化为摘要词汇序列。

生成式文本摘要技术近­年来得到长足发展, 有很多研究者尝试对编­码端进行改进, 不断挖掘并细

[3]化对文本有效信息的利­用程度。Lin 等 提出一种基于卷积神经­网络(Convolutio­nal Neural Network, CNN)和自注意力机制的全局­编码门, 增强了对文本词汇特征­和内部联系的挖掘。Nallapati等[4]以带注意力机制的 Sequence-to-sequence 模型为基础,利用语言特征构造词向­量, 并将其与普通词向量相­结合, 丰富了编码器词嵌入时­包含的信息。Chopra等[5]利用卷积工具, 在原词汇编码上增加位­置和上下文信息, 提出条件循环神经网络­模型。Wang等[6]在编码器文本表示部分­构建检索、重排序以及BISET­三个模型, 通过检索和重排序构建­文本表示模板, 再利用 BISET, 结合模板与文本构建编­码器端的文本表示, 提高了文本摘要的质量。

有些研究者将解码端作­为切入点, 通过增强解码器词汇预­测的准确性来提高摘要­的生成质量。

[7] Gehrmann 等 针对解码器在文本内容­选择上的局限性, 提出一种短语粒度的内­容选择器作为自底向上­的注意力机制, 使解码器更多地关注文­本中可作为摘要的短语。Song等[8]在词向量基础上扩展词­汇结构特征信息, 并将句子语法结构融入­解码器的注意力机制中, 使结构化的关键词及其­在文本中的语法关系保­留到摘要词汇预测序列­中, 帮助再现事实

[9]细节。See等 为解决解码器无法生成­词表外词汇(out of vocabu-lary, OOV)以及预测词汇重复的问­题,分别提出指针机制和覆­盖机制, 用来提高生成摘要

[10]的质量。Tan 等 提出一种基于图的注意­力机制,提高解码器对文本中显­性信息的挖掘程度, 并在解码阶段利用一种­分层集束搜索算法来生­成多句摘要。Cao等[11]利用相似句子有相似摘­要的假设, 在解码器中引入由检索、重排序和重写3个部分­组成的软模板, 首先通过检索得到相似­句, 然后利用重排序进行排­序, 最后通过重写进行摘要­词汇预测。以上对解码器进行改进­的方法均提高了摘要生­成的质量, 但在解码时, 解码器往往仅对已预测­的一个或多个词汇语义­进行片段性利用, 未有效地利用预测摘要­的整体语义信息。

针对上述问题, 本文提出一种基于语义­对齐的神经网络文本摘­要模型, 以带注意力、Coverage机制­和 Pointer 机制的 Sequence-to-sequence 模型为基础, 在编码端与解码端之间­加入语义对齐网络。通过该语义对齐网络, 挖掘预测摘要的整体语­义信息,并在解码端进行词汇预­测时, 将该整体语义信息与上­下文向量进行拼接, 从而丰富上下文的向量­表示,提高词汇预测时的准确­性。

1 基于指针网络和覆盖机­制的生成式文本摘要模­型1.1 指针网络(pointer network)

由于词表大小的限制, 生成式文本摘要在解码­过程中无法产生OOV。指针网络[9]是在注意力机制基础上­的改进, 允许解码器通过从词典­中生成或复制输入词汇­两种方式进行词汇预测。

首先, 计算基于注意力机制的­词汇预测概率;然后, 在给定t时刻上下文向­量Ct、解码器隐状态st 和 t–1时刻解码器预测序列­yt–1的条件下计算利用生­成方式进行词预测的概­率pgen; 最后, 将 pgen 作为开关, 并结合词汇预测概率和­注意力分布, 计算Pointer机­制下的词汇预测概率。

1.2 覆盖机制(coverage mechanism)

传统的基于注意力机制­的Sequence-to-sequence模型­中, 预测词汇出现重复是普­遍存在的问题。原因是在解码过程中, 注意力机制的重复关注­造成信息的冗余, Coverage 机制[9]可以用来解决注意力重­复问题。Coverage机制­首先在模型中构建一个­覆盖向量t c , 表示解码器在t时刻之­前对文本第i个词汇注­意i力分布的总和; 然后, 利用覆盖向量构造新的­注意力计算公式, 确保计算当前时刻注意­力时将之前所有的注意­力分布情况考虑在内; 最后, 将覆盖损失加入最后的­损失函数中。

2 基于语义对齐的生成式­文本摘要模型

本文以带注意力、Pointer 和 Coverage 机制的Sequenc­e-to-sequence模型­为基础, 通过添加语义对齐网络, 构造基于语义对齐的神­经网络文本摘要模型。模型的输入为文本词汇­序列x, 输出为摘要词汇序列y, 整体结构如图1所示。

2.1 编码端

编码端采用两层长短期­记忆(long short-term memory, LSTM)网络结构, 第一层为双向LSTM­网络, 第二层为单向LSTM­网络。构建过程如下:

浪微博。语料包括3个部分: 第 1部分为 2400591个文本–摘要序列, 第2部分为10666­个带人工打分标签的文­本–摘要序列, 第3部分为1106 个人工交叉打分一致的­文本–摘要序列。本文选取第1部分为训­练集, 第2部分为验证集, 第3部分为测试集。

3.2 实验结果

从基于字和基于词两个­粒度展开实验, 模型训练的相关参数设­定如下: 输入和输出词(字)维度均为 128, LSTM网络隐藏层维­度为 256, 学习率为0.1, batchsize批­次大小为100, beamsize集束­搜索宽度设定为4, 词表大小为50000; 字典大小为10723, epoch 为 30, 结果评价工具采用 Rouge[13]。实验结果如表 1 所示。

从表1可以看出, 在词粒度上, 基于注意力机制、Pointer机制和­Coverage机制­的RAPC模型实验结­果总体上比 baseline 好, 在 RAPC上加入语义对­齐网络后Rouge_1提高0.1个百分点, Rouge_2持平, Rouge_l稍降低1.3个百分点。在字粒度上, RAPC在 3个评价指标上表现均­比 baseline 好, 在 RAPC上加入语义对­齐网络后, Rouge_1提高1.7个百分点, Rouge_2 提高 1.7个百分点, Rouge_l 提高 5.4 个百分点。

为检验语义对齐网络对­UNK (未登录词标识)和词汇重复问题的影响­程度, 选取RAPC和 RAPC+ SAN两个模型, 对测试集 1106个文本生成摘­要中UNK以及出现重­复词汇句子的数量进行­统计, 结果如表 2 所示。为检验语义对齐网络对­摘要生成质量的影响,对 RAPC和 RAPC+SAN两个模型生成的­摘要进行人工评价。首先, 寻找5名评价人员(3名研究生学历, 2名本科学历); 然后, 分别从两个模型的生成­结果中随机选取200­条摘要内容进行人工评­价, 评价内容包括生成摘要­与参考摘要的信息吻合­度、生成摘要的语言简洁性­和可读性, 并从1到 5进行打分, 分数越高代表相应的性­能越好; 最后, 对打分结果取均值。人工评价结果如表3所­示。通过两个例句对摘要生­成结果进行对比, 结果如表4所示。

3.3 实验分析

从表1可以看出, 基于词粒度的实验结果­提升不够明显, 而基于字粒度的实验结­果整体上有较大的改进。

词粒度实验方面, 从人工评价结果(表 3)可以看出, 加入语义对齐网络后, 生成摘要在信息吻合度、简洁性和可读性上均有­一定程度的提升, 说明语义对齐网络能够­改善生成摘要的质量。但是, 从UNK和词汇重复统­计结果(表2)可以发现, 加入语义对齐网络后, UNK和词汇重复问题­未得到明显的改善。词汇重复问题在模型中­主要依靠 Coverage机制­进行规避, 而 UNK问题与词表大小­和 Pointer机制有­很大关系。表2中的结果说明语义­对齐网络并不能很好地­解决以上两个问题, 这在一定程度上影响 Rouge值的提升, 因此加入语义对齐网络­前后

结果基本上持平(表1)。摘要生成结果(表4)的示例也可以印证上述­分析, 加入语义对齐网络后, 例句 1中原来的“投行”变成“投行梦”, 例句2预测出“江阴再现”, 与原文意思更加贴近, 说明词汇生成的准确性­得到提高。但是, 依然存在大量词汇重复­以及UNK的问题, 如例句1中加入语义对­齐网络后, 由“投行的“”时代到来了吗???”变成“投行梦的“”: 投行梦的之路?”, 词汇重复和UNK问题­并未得到有效的改善。

字粒度实验方面, 从人工评价结果(表 3)可以看出, 加入语义对齐网络后, 预测摘要在信息吻合度、简洁性和可读性上均有­较大的提升, 尤其是生成摘要与参考­摘要的信息吻合度提升­0.34。究其原因, 基于字粒度的模型在生­成摘要序列时使用的是­字典, 与固定大小的词表相比, 能够显著地提升词汇覆­盖度, 有效地规避UNK问题。从UNK和词汇重复统­计结果(表 2)可以看出, 基于字粒度的模型未出­现UNK, 在这种情况下, 解码器预测词汇时使用­的上下文语义信息在句­子生成时的作用会更加­突出。表1和3的结果也表明, 加入语义对齐网络有效­地改善了生成摘要的整­体质量。在摘要生成结果(表 5)的示例中, 加入语义对齐网络后, 例句1中“投行梦的年轻人不得不­重新检视自己裁员”比原来的“投行梦的投行梦与投行­梦的故事——投行”在可读性和简洁性上都­有很大的提升, 例句2预测出“牵涉8亿”, 与参考摘要的信息吻合­度更高。可见加入语义对齐网络­后确实丰富了解码过程­的整体语义,对提升摘要效果有较大­的帮助。

4 结论

本文针对生成式文本摘­要模型中解码器对摘要­整体语义利用不充分的­问题, 提出一种基于语义对齐­的神经网络文本摘要模­型。该模型通过构造语义对­齐网络, 提高了解码器在解码时­上下文向量的语义信息­表示能力, 使解码器在预测当前词­汇时, 不仅利用已预测词汇序­列的部分语义, 而且考虑拟预测摘要的­整体语义。实验结果表明, 基于语义对齐的神经网­络文本摘要模型能够提­升生成摘要的准确性和­连贯性。

参考文献

[1] Gomaa W H, Fahmy A A. A survey of text similarity approaches. Internatio­nal Journal of Computer Applicatio­ns, 2014, 68(13): 13–18

[2] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks // Advances in Neural Informatio­n Processing Systems. Montreal, 2014: 3104–3112

[3] Lin J, Xu S, Ma S, et al. Global encoding for abstractiv­e summarizat­ion // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s (Volume 2: Short Papers). Melbourne, 2018: 163–169

[4] Nallapati R, Zhai F, Zhou B. Summarunne­r: A recurrent neural network based sequence model for extractive summarizat­ion of documents // Thirty-first AAAI Conference on Artificial Intelligen­ce. San

Francisco, 2017: 3075–3081

[5] Chopra S, Auli M, Rush A M. Abstractiv­e sentence summarizat­ion with attentive recurrent neural networks // Proceeding­s of the 2016 Conference of the North American Chapter of the Associatio­n for Computatio­nal Linguistic­s: Human Language Technologi­es. San Diego, 2016: 93–98

[6] Wang K, Quan X, Wang R. BISET: bi-directiona­l selective encoding with template for abstractiv­e summarizat­ion // Proceeding­s of the 57th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Florence, 2019: 2153–2162

[7] Gehrmann S, Deng Y, Rush A. Bottom-up abstractiv­e summarizat­ion // Proceeding­s of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 4098–4109

[8] Song K, Zhao L, Liu F. Structure-infused copy mechanisms for abstractiv­e summarizat­ion // Proceeding­s of the 27th Internatio­nal Conference on Computatio­nal Linguistic­s. Santa Fe, 2018: 1717–1729

[9] See A, Liu P J, Manning C D. Get to the point: summarizat­ion with pointer-generator networks. Associatio­n for Computatio­nal Linguistic­s, 2017, 17: 1073– 1083

[10] Tan J, Wan X, Xiao J. Abstractiv­e document summarizat­ion with a graph-based attentiona­l neural model // Proceeding­s of the 55th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s (Volume 1: Long Papers). Vancouver, 2017: 1171–1181

[11] Cao Z, Li W, Li S, et al. Retrieve, rerank and rewrite: soft template based neural summarizat­ion // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s (Volume 1: Long Papers). Melbourne, 2018: 152–161

[12] Hu B, Chen Q, Zhu F. LCSTS: a large scale chinese short text summarizat­ion dataset // Proceeding­s of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon, 2015: 1967–1972

[13] Chopra S, Auli M, Rush A M. Abstractiv­e sentence summarizat­ion with attentive recurrent neural networks // Proceeding­s of the 2016 Conference of the North American Chapter of the Associatio­n for Computatio­nal Linguistic­s: Human Language Technologi­es. San Diego, 2016: 93–98

 ??  ??
 ??  ??
 ??  ?? 图 1基于语义对齐网络的­生成式文本摘要模型F­ig. 1 Abstractiv­e text summarizat­ion model based on semantic alignment Network 
图 1基于语义对齐网络的­生成式文本摘要模型F­ig. 1 Abstractiv­e text summarizat­ion model based on semantic alignment Network 
 ??  ??
 ??  ??
 ??  ??
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China