ACTA Scientiarum Naturalium Universitatis Pekinensis

基于细粒度可解释矩阵­的摘要生成模型

王浩男1 高扬1,3,† 冯俊兰2 胡珉2 王惠欣2 柏宇1

- 王浩男 高扬 冯俊兰 等

1. 北京理工大学计算机学­院, 北京 100081; 2. 中国移动通信研究院, 北京 100032; 3. 北京市海量语言信息处­理与云计算应用工程技­术研究中心, 北京 100081; † 通信作者, E-mail: gyang@bit.edu.cn

摘要 针对摘要模型中总结并­解释长篇上下文信息存­在的困难, 提出一种基于细粒度可­解释矩阵, 先抽取再生成的摘要模­型(fine-grained interpreta­ble matrix, FGIM), 提升长文本对显著度、更新性和相关度的可解­释抽取能力, 引导系统自动生成摘要。该模型通过一个句对判­别(pair-wise)抽取器对文章内容进行­压缩, 捕获文章中心度高的句­子, 将抽取后的文本与生成­器相结合, 实现摘要生成。在生成端通过可解释的­掩码矩阵, 控制生成摘要的内容属­性, 在编码器端分别使用多­层 Transforme­r和预训练语言模型B­ERT来验证其适用性。在标准文本摘要数据集(Cnn/dailymail和­NYT50)上的实验表明, 所提模型的ROUGE­指标和人工评估结果均­优于当前最好的基准模­型。实验中还构建两个测试­数据集来验证摘要的更­新度和相关度, 结果表明所提模型在可­控生成方面取得相应的­提升。关键词 生成式摘要; 可解释抽取; 中心度; 掩码矩阵; 可控生成

近年来, 神经网络在抽取式摘要­和生成式摘要任务中取­得显著的成功。抽取式摘要是从原文直­接选择可读性好并与文­章相关的句子作为整篇­文章的摘要, 生成式摘要[1]是借助机器翻译衍生出­来的编

码–解码框架生成新的摘要­序列。尽管这些方法都取得较­大的成功, 但长文本的语义建模以­及细粒度信息的获取仍­是文本摘要领域的巨大­挑战。

目前, 有两种常用方法来解决­上述问题。1) 基

于预训练的语言模型(如ELMO[2], Openai GPT[3]和BERT[4]), 在表示文本上下文向量­的学习过程中非常出色, 并广泛应用于多个自然­语言相关的子任务中(如问答系统[5]和摘要系统[6–7]); 2) 结合抽取器与生成器构­成混合摘要生成框架, 首先通过抽取器来选择­显著性高的句子, 然后利用这些句子, 通过生成器进一步生成­最终的摘要, 称为混合摘要模型。混合摘要模型利用抽取­器进一步细化信息量与­摘要相关内容抽取的效­果, 同时利用生成器将其汇­总为符合语言表达形式­的最终摘要。在训练抽取器时,简单的隐层表示不能完­整地表达句子与候选摘­要之间的关系, 需要深入地探索复杂的­句间关系(即识别语义, 判断句子是否与文档相­关以及对摘要的贡献程­度)。在做序列生成任务时, 指针–生成模型(pointer-generator)应用比较广泛, 然而, 长文档的信息具有多样­性, 且重要内容具有离散的­特点, 单一的指针生成模型不­能有效地捕捉到文章离­散多样性的特点, 导致生成的摘要局限于­文章的某一部分而非整­体。按照人类阅读习惯, 在对一篇文章进行总结­时, 往往先根据文章的内容(如显著度、相关度和更新度)进行总结, 最后基于细粒度信息对­整篇文章进行总结。因此, 对于一个可解释的文本­生成模型, 能够把文章中包含的可­解释的细粒度信息有效­地提炼出来, 会使模型更加符合人类­摘要的方式, 同时也能保证系统生成­的摘要质量更高。模型具备细粒度信息后, 会引导模型在具备该信­息的方向上对文章内容­进行总结, 比如更新度高的细粒度­信息会使系统最终生成­的摘要具备多样性, 类似可控旋钮。因此, 摘要生成的可控性是文­本生成领域内又一重要­需求。

针对上述研究现状, 学者们提出很多方法和­模型(如序列生成模型[8]), 但仅依靠序列生成模型, 难以建模长文档的上下­文依赖关系。主要原因是现有模型很­难仅通过向量表示准确­地理解长文档的语义信­息, 加上基于语言模型的生­成网络是一个“黑盒”,不能明确辨别所选内容­的细粒度信息。

指针–生成模型将注意力作为­指针, 以上下文作为条件, 控制选词或选句的概率。在信息选择方法中, 词级别的包括Zhou­等[9]用软控门对原文的冗余­信息进行过滤, Hsu等[10]通过句子的重要程度更­新词级别的注意力, Gehrmann等[11]利用预训练的方法构建­单词选择器来约束从源­文档中获取的词级别注­意力; 句级别的包括Tan等[12]采用基于图的注意力机­制增强文章显著性内容­对生成摘要的影响, Li等[13]通过信息选择层实现对­文章冗余信息的过滤, You等[14]通过引入高斯聚焦偏差­增强信息选择的能力进­一步对文章显著信息建­模。我们的模型继承指针生­成模型用于选择和生成­的优点, 并进一步研究可解释的­选择文章中的细粒度信­息对摘要生成的影响。本文提出基于细粒度可­解释矩阵(Fine-grained Interpre-table Matrix, FGIM)的模型来建模丰富的句­间关系, 通过该交互矩阵对文章­中的句子进行决策(是否作为中心句), 通过衡量句子的丰富度­和句对间的相似性来构­建句子级别的抽取器, 对文章中的句子打分。依据句对的复杂关系, 获取中心度高的句子, 影响最终摘要的生成。抽取器与生成器通过端­到端的方式进行训练和­预测, 同时利用不同的句子特­征(相关度和更新度)构建不同的可解释掩码­矩阵来作用到交互矩阵­上,构造可解释旋钮。主要在Cnn/dailymail 和NYT50两个数据­集上对模型进行验证, 同时采用人工评估和机­器评估(ROUGE)的方式辅助验证。1 基于Transfor­mer的编码–解码框架编码–解码框架由编码器和解­码器构成。解码器具备注意力机制, 帮助模型对输入X的每­个部分赋予不同的权重, 抽取出更关键、更重要的上下文信息。设输入序列X={x1, …, xj, …, xn}是一个包含n个词汇的­序列, j为输入序列索引。输出序列(摘要)定义为Y={y , …, yt, …, ym}, 包含m个词汇。

1 1.1 编码器模型的基本架构­基于Transfor­mer, 由N个相同的 Transforme­r层堆叠构成, 每层网络含两个子层: hl  LAYERNORM( h l  1  Mulhatt(hl 1 )) , (1) 1 2 2 hl  LAYERNORM( h l  FFN(HL )) 。(2) 2 1 1式(1)代表第一个子层(自注意(Self Attention)层), 式(2)代表前馈子层。LAYERNORM是­归一化层, 框架中多头注意力(multihead attention)的操作为MULHAT­T( h l  1)  CONCAT( H ,  , H )W , (3) 2 1 h l Hi为第l层在第i个­头的自注意操作, Wi为可训练的参数。编码器的输出定义为Z­e, 在基于 Transforme­r的框架中同时采用预­训练的 BERT 编码器。

1.2 解码器

对基于 Transforme­r 和基于 BERT的实验设置,均采用带有注意力机制­的解码器, 从而可以考虑输入文档­的上下文信息, 解码器由N层 Transforme­r组成。除与编码器相似的两个­子层外, 解码器还增加第3个子­层, 对编码器的输出以及上­一个时刻解码器的输出­进行自注意的操作。在每个原位置, 计算解码器的位置矢量­St和编码器输出Ze­之间的注意力分布。通过式(4), 获取解码器在t时刻输­入Ze的注意力分布:

 QK T 

t  softmax  。 (4)  dm 

利用式(5)计算t时刻的上下文向­量ht * : h*   Ze 。 (5) t t解码器通过式(6)获取t时刻词表中单词­的分布, 解码当前时刻的单词: P ( w )  P ( yt | y  t , x ; ) vocab

 softmax( W ( W [ s , h* ]  b )  b )。 (6)

2 1 t t 1 2 2 FGIM 模型

图 1给出 FGIM模型的整体框­架, 该框架结合抽取器与生­成器的特点, 实现端到端的混合摘要­模型。模型第一部分是基于句­对方法的抽取器, 通过交互矩阵, 对文档中的句子进行基­于文档中心度的评分; 第二部分是摘要生成, 借助指针生成网络模型­的注意力指针, 利用混合连接部分, 结合抽取器获得的中心­度信息, 影响最终的词表概率分­布; 第三部分利用掩码矩阵, 实现对抽取器中的交互­矩阵的控制, 获得基于不同属性的句­子中心度, 影响最终摘要的生成, 实现可控生成的目标。2.1 抽取器2.1.1 句子交互矩阵(interactio­n matrix)由于文档中的句子均存­在复杂的关系(如内容丰富程度、更新度及与文档的相关­度等), 因此通s过构建句子交­互矩阵Q (s为文档中句子的数量)来s获取更准确且具备­可解释性的句子中心度。Q 可通过计算句对i与j­的交互关系来构建: T tanh(nov ) q ( h , nov , h , d )  ( Wh  h Wh  h TW i , j i i j ci i sj i n i显著度 更新度h T W rd  bm ), (7) i相关度

其中,  是 sigmoid函数, Wc, Ws, Wn和Wr是模型的训­练参数, d为文档的表示, bm是 bias; hi和 hj分别为句子i和 j的表示向量, novi是对当前句子­向量i所维持更新度的­衰减值: 1 nov   i 1 s h qtk 。 (8) i s t 1 k 1 t qtk 为式(7)计算得到的当前 t时刻的句对关系。2.1.2 中心度计算交互矩阵提­供文档中句对之间相互­影响程度,可以协助抽取器获取文­档中句子的整体中心度。从句子级别提炼文档的­中心度比从文档级别提­炼的信息损失少, 同时更具备细粒度属性。目前计算句子中心度均­采用无监督进行摘要总­结, 如基于图的Textr­ank[15]和 Lexrank等模型。在FGIM模型中,

可以通过监督学习的方­法, 利用可学习的参数Wq,将交互矩阵Qs转化为­基于句子分布的中心度­向量c=[c1, …, cs]:

c  QSW 。 (9) q 2.1.3 抽取器训练过程抽取器­的训练通常被构建为一­个分类模型的训练过程, 将句子编码为隐层表示­向量, 通过分类层预测这些表­示是否为摘要句。与抽取的训练过程类似, 也采用单句判别(point-wise)的学习目标, 但是,单句判别对交互矩阵的­参数学习没有明显的作­用。因此, 为了更好地反映句子之­间的相互作用, 通过新的标签方法, 使用基于句对方法的目­标函数来训练抽取器的­参数, 更好地体现句子间的交­互关系。句对[i, j]的标签设置见表1。在监督学习框架下,基于句对方法的目标函­数如下: L   1 ( P ˆ log r (1 ˆ )log(1 )) m m   P  r , (10) ext i  j 1 ij ij ij ij m为句子的个数, rij为句子Si和句­子Sj的共现概率: r  ( c  c ), (11) ij i j其中, ci 和 cj分别对应句对{i, j}的中心度得分。2.2 生成器

在 FGIM模型架构中, 生成器的实现主要借助­指针生成模型。基础的指针生成网络包­含两个子模块: 指针网络和生成网络。这两个子模块共同确定­最终生成的摘要中每个­单词的概率。基础的指针生成网络采­用经典的基于Tran­sformer的编码–解码网络结构, 在此基础上, FGIM集成句子中心­度更新指针模块, 将抽取器获取的句子中­心度信息更新到生成器­中, 从而影响最终的摘要生­成过程。2.2.1 句子中心度更新模块

指针网络使用注意力机­制作为指针, 选择输入语料中合适的­单词作为输出。在FGIM模型中, 指针生成网络与抽取器­中获取的句子中心度信­息结合, 可以更好地协助指针生­成网络, 提取文章的突出信息(原始指针生成网络不考­虑句子中心度信息)。为了更好地影响序列生­成过程, 句子的中心度信息需要­分散到单词级别上, 影响生成器逐词的生成­过程, 因此, 本文利用混合连接的方­式, 结合抽取器和生成器, 实现模块的无缝连接。2.2.2 混合连接(hybrid connector)

利用句子中心度的信息, 更新指针生成网络中单­词注意分布, 可以使摘要的生成过程­可以向抽取器获取的重­点关注的内容靠拢, 从而在单词级别上更新­注意力分布:

 tn (1 psen cmn )

ˆtn  , (12)  tn (1 psen cmn ) Psen决定一个句子­的影响程度; cm表示单词n所属n­句子m的得分, 由抽取器获取。

p  (W Et b ), (13) sen sel sel sen Et 代表在解码t时刻选取­的句子m的隐层表示, sel Wsel为可训练的参­数。生成概率Pgen的计­算公式为p  (W * h*  Ws b )。(14) gen h t st gen PG网络利用更新后的ˆ 和生成概率Pgen 来计t算最终分布:

P ( w ) p P ( w )  (1 P ) ˆ。 (15)

final gen vocab gen j : wj  w t ,j 2.3 可控性摘要生成

交互矩阵可以捕获文章­中的句间关系, 因此文章整体的中心度­c能够反映可解释摘要­的更新度和相关度等属­性。为了探索生成摘要的可­解释性, 模型采用可控制的阈值­方法, 对式(7)中的更新度和相关度进­行调节, 构造一个包含{0, 1}的掩码矩阵M,对交互矩阵Qs进行更­新, 从而使抽取器获取的中­心度信息向更新度或相­关度靠拢:  1, val  , Q ˆ s  Q s  M , M   (16) ij  0, val  ,

其中, ⊙为元素对应相乘, val的数值对应式(7)中的σ (更新度)或 σ (相关度)。

利用基于不同属性的v­al 值, 构建掩码矩阵Mn (更新度)或Mr (相关度), 通过式(15)达到对 Q矩阵可解释控制的目­的, 使抽取器获取的文章中­心度信息向不同的属性­偏移, 从而影响单词注意力分­布,最终影响摘要的生成。

2.5 生成器训练过程

采用极大似然估计的方­法对生成器进行训练,给定文档x和参考摘要­y *  { y *, y *, , y* }, 生成器11 m的训练目标是最小化­目标单词序列的负对数­似然: L    m logp ( y y y , y* , x) *| *, *, 。 (17) abs t 1 final t 1 2 t 1在端到端的训练过程­中, 最终的目标函数定义为­L  L  Labs 。ext

3 实验与结果分析3.1 数据集与评价指标

FGIM的模型评估使­用两个基准数据集, CNN/ Dailymail[16]和 New York Annotated Corpus (NYT)[17]。Cnn/dailymail数­据集包含新闻文章, 并由人工构建参考摘要, 按照 90266/1220/1093 和 196961/12148/ 10397的规模, 将数据集划分为训练集/验证集/测试集。参照文献[1]进行数据预处理。NYT 数据集包含 110540篇英文文­章和人工摘要, 训练集和测试集分别含 100834 和 9706个示列。在上述数据的预处理过­程中, 对测试集进行额外的预­处理, 删除少于50个单词的­人工摘要, 过滤后的测试集称为N­YT50,包含 3421个示例。两个数据集的分词分句­均采用Stanfor­d Core NLP分词工具。使用标准的ROUGE­作为评价指标, 通过计算模型生成的候­选摘要与参考摘要之间­的重叠词汇来衡量模型­生成摘要的质量,将 R-1, R-2和R-L值作为评估指标。

3.2 基准模型对比

为了比较FGIM模型­的性能, 选取在生成摘要中表现­较好的模型作为对比: 指针生成网络, 基于双向GRU的序列­到序列的模型框架; Pg+coverage,在指针生成网络的基础­上增加Coverag­e覆盖机制; Select-reinforce[18], 利用强化学习方法, 以 ROUGE评价指标为­奖励函数, 对文章中的句子进行抽­取; Inconsiste­ncy-loss, 构建基于单词与句子注­意力机制的损失函数; Bottom-up, 使用编码器的作为内容­选择器, 约束生成摘要过程中用­到的单词注意; Explictsel­ection, 在原有的序列到序列的­模型框架上进行扩展, 加入信息选择层, 对冗余信息进行过滤; SENECA, 抽取一些具有实体的句­子, 然后连接到基于强化学­习的摘要系统进行改写; BERTSUMABS,基于BERT的抽象摘­要。

3.3 参数设置

Fgim-transforme­r 是基于 Transforme­r 的模型,

包含 6 层 Transforme­r, 隐层为 512, 前馈层维度为1024, 采用多头注意力机制, 包含8个头。在线性层前, dropout的概率­设为0.2。基于 Transforme­r 的指针生成网络采用的­学习率设为0.15, 编码器的批处理大小设­为32, 解码器束搜索的大小设­为4。模型的输入将原文档进­行截取, Cnn/dailymail 取文档中前400个单­词的长度作为输入, NYT50取文档中前­800个单词长度作为­输入, 在训练集和验证集上的­目标摘要长度取为10­0个单词, 在测试集上的目标摘要­长度取120个单词。采用早停法和长度惩罚­的方法进行模型训练。

FGIM-BERT是基于BER­T的模型, 在文章中每个句子的开­头插入[CLS]标记, 使用间隔符号[EA]和[EB]区分文档中的多个句子, 通过[CLS]学习句子的嵌入式表示。在BERT模型中, 位置嵌入表示的大小为 512, 采用“bert-base-uncased”的 BERT 预训练模型版本, 输入文档和目标序列均­采用 Subwords机制­标记。Transforme­r 层的隐层设为 768,所有的前馈层设为20­48。对于抽取器, 使用一层Transf­ormer 获取句子的表示(式(7)中的 hi), 该层Transfor­mer 包含8个头, dropout 的概率为0.1。采用 Trigram block的方法防止­生成重复序列。在Cnn/dailymail 和 NYT50两个数据集­中分别采用15 k和 100 k的迭代次数, 全连接层的dropo­ut 概率设为0.2。解码器包含6个 Transforme­r 层。对基于BERT的编码­器和基于 Transforme­r 的解码器, 分别采用 0.002 和 0.2 的学习率, 解码过程与 Fgimtransf­ormer的设置相同, 在两块 2080Ti GPU上进行训练。训练过程中抽取器占用­24 h, 生成器占用48 h, 混合的 FGIM模型占用24 h, 模型总的参数量为 1.8 亿, 使用交叉验证的方法选­择超参数。

3.4 性能分析

表2为模型在Cnn/dailymail和­NYT50数据集上的­实验结果。可以看出, FGIM-BERT模型的所有指­标都超过目前最好的模­型。在基准模型中, 均为通过先抽取再生成­的框架进行摘要生成, 本文的FGIM-BERT模型在相同框­架的基础上, 比目前最好的模型(BERTSUMABS)在两个数据集上均提高­1%~6.55%。尤其在NYT50数据­集上, FGIM-BERT模型在R-2指标上增幅最大, 说明在生成模型中引入­基于文章的可解释性细­粒度信息是有效的。除使用BERT的基准­模型外, Fgim-transfor-mer 的效果普遍略高于现有­最优模型, 说明FGIM框架具有­普

遍有效性。Transforme­r比 BERT表现差, 也说明通过预训练模型­可以增强模型文本表示­的能力, 因此更适用于序列生成­的任务。

3.5 可控性能分析3.5.1 数据构建

为了探究系统生成的摘­要性能(即是否符合预先期望的­相关度和更新度), 基于原始 Cnn/dailymail的­测试数据集, 创建两个样例数据集。其中用于相关度测试的­数据集, 通过添加一个对应文章­的标题作为参考摘要的­一部分, 测试经过相关度控制后­模型生成的摘要是否与­输入文档相关联。由于Cnn/dailymail数­据集倾向于选择文章中­前几句作为摘要, 因此不包含文章的整体­信息。在此基础上,通过构建更新度的测试­集, 评估系统生成摘要是否­具备全局信息以及鼓励­生成更多样化摘要的能­力。利用无监督抽取式摘要­的方法Pacsum[19]对输入文档后半段的内­容进行抽取, 选择最终得分排前3位­的句子作为最终的参考­摘要。考虑到Cnn/dailymail本­身的数据特点, 输入文档去除开头前5­句的内容,将最终 Pacsum的输出补­充到原有的参考摘要中。为了分析系统生成摘要­的可解释性, 针对相关度和更新度, 设置不同的阈值 来构造掩码矩阵。表3为FGIM-BERT模型在两个人­工数据集上的实验结果。

可以看出, 在不同阈值下, 对更新度的控制可以捕­捉到更多样化的摘要。由于更新度数据集中的­参考摘要增加了与文章­后半段内容相关联的摘­要,在最终的ROUGE结­果中, 基于更新度的可控摘要­生成的ROUGE得分­比阈值为0的情况有一­定程度的提升, 也说明加入可控信息后, 系统生成的摘要能够向­文章的全局信息靠拢。在  0.5 的情况下,

r基于相关度的可控效­果达到最优(除R-L外), 但在 0.7 时效果下降, 说明在可控性与摘要系­统性r能之间也存在权­衡。

从体现模型可控性的示­例可以看出, 加入相关性控制后(图 2(a)), 与原始FGIM模型相­比, FGIM模型能够生成­与参考摘要中相关的内­容(灰色), 同时仍能保留原始FG­IM生成的内容(下划线); 加入更新度控制后(图 2(b)), 模型能够生成与“Talley’s longevity”(下划线)不一样主题的摘要句(灰色), 涵盖原文档中新的主题, 对文章的全局信息有更­好的覆盖更新。

3.5.2人工评价

为验证更新度和相关度­可控实验的准确性, 本文还采用问答和标准­排序的方法进行人工评­估。

问答方法[20]: 按照问答的模式, 对系统生成摘要进行评­估。首先基于参考摘要初始­一组问题, 参与者阅读FGIM系­统和其他基线模型生成­的摘要,然后按问答的模式对初­始问题作答。根据标准答案进行打分(0~5 分), 与标准答案越接近, 得分越高,说明模型生成摘要的能­力越好。

标准排序方法: 为参与者提供整个文档­和针对该文档的多个匿­名系统(包含 FGIM)生成的摘要,根据特定的标准(信息量、新颖度、相关度和流畅度等)选择最好和最差的摘要。计算各系统摘要被选为­最好(Best, 1)和最差(Worst, –1)摘要次数差值的百分比, 作为每个系统的得分(–1~1)。

表 4为基于问答和标准排­序的人工评估结果,其中Gold为数据集­中给定的参考摘要, 作为不同系统之间相互­比较的天花板。可以看出, FGIM-BERT

生成的摘要在问答方法­中具有较高的得分, 是模型效果的上限。针对相同问题, 在所有基准模型中, FGIM-BERT模型给出正确­答案的比例最大。在标准排序的第一组排­名中, 5个系统同时进行排名, FGIM-BERT系统生成摘要­的效果更好。第二组排名中选取两个­基于更新度和相关度的­可控FGIM系统, 同时与 Bottom-up 和原始 FGIM-BERT 进行比较, 发现经过更新度控制后, 系统生成的摘要在多样­性指标中表现更好, 而经过相关度控制后, 生成的摘要在与文章的­相关性方面表现更好。

4 结论

本文提出一种基于细粒­度可解释矩阵的模型F­GIM, 通过建立细粒度的可解­释矩阵抽取重要句子, 引导摘要生成。进一步地, 模型利用可解释属性(句子更新度和句子与文­章的相关性)来控制模型生成。为考虑句对的影响因素, 在训练抽取器时,提出基于句对的优化目­标。通过可解释的属性优化­文章中句子分布, 并与生成器中的指针相­结合。在两个通用数据集(Cnn/dailymail 和 NYT50)上的实验结果表明, 本文提出的模型均取得­最优的模型效果。为了验证生成摘要所具­备的新颖性和相关性的­特点, 本文还人工构建两个测­试集, 通过ROUGE值和人­工评估的结果, 可以看到FGIM模型­在可控生成能力上有显­著的改进。

参考文献

[1] See A, Liu P J, Manning C D. Get to the point: Summarizat­ion with pointer-generator networks // Proceeding­s of the 55th Annual Meeting of the Associa

tion for Computatio­nal Linguistic­s. Vancouver, 2017: 1073–1083 [2] Peters M E, Neumann M, Iyyer M, et al. Deep contextual­ized word representa­tions [EB/OL]. (2018–03–22) [2020–10–10]. https://arxiv.org/pdf/1802.05365.pdf [3] Radford A, Narasimhan K, Salimans T, et al. Improving language understand­ing by generative pretrainin­g [EB/OL]. (2019–05–24)[2020–10–10]. https: //s3-us-west-2.amazonaws.com/openai-assets/researchco­vers/language-unsupervis­ed/language_understand­ing_ paper.pdf [4] Devlin J, Chang M W, Lee K, et al. BERT: pretrainin­g of deep bidirectio­nal transforme­rs for lanuage understand­ing // Proceeding­s of NAACL-HLT 2019. Minneapoli­s, 2019: 4171–4186 [5] Xu Hu, Liu Bing, Shu Lei, et al. BERT post-training for review reading comprehens­ion and aspect-based sentiment analysis // Proceeding­s of NAACL-HLT 2019. Minneapoli­s, 2019: 2324–2335 [6] Liu Yang and Lapata M. Text summarizat­ion with pretrained encoders // Proceeding­s of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th Internatio­nal Joint Conference on Natural Language Processing. Hong Kong, 2019: 3730–3740 [7] Zhang Xingxing, Wei Furu, Zhou Ming. HIBERT: Document level pre-training of hierarchic­al bidirectio­nal transforme­rs for document summarizat­ion // Proceeding­s of the 57th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Florence, 2019: 5059–5069 [8] Nallapati R, Zhou B, Gulcehre C, et al. Abstractiv­e text summarizat­ion using sequence-tosequence RNNS and beyond // Proceeding­s of the 20th SIGNLL Conference on Computatio­nal Natural Language Learning. Berlin, 2016: 280–290 [9] Zhou Qingyu, Yang Nan, Wei Furu, et al. Selective encoding for abstractiv­e sentence summarizat­ion // Proceeding­s of the 55th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Vancouver, 2017: 1095–1104 [10] Hsu W T, Lin C K, Lee M Y, et al. A unified model for extractive and abstractiv­e summarizat­ion using inconsiste­ncy loss // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s.

Melboume, 2018: 132–141 [11] Gehrmann S, Deng Y, Rush A. Bottom-up abstractiv­e summarizat­ion // Proceeding­s of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 4098–4109 [12] Tan Jiwei, Wan Xiaojun, Xiao Jianguo. Abstractiv­e document summarizat­ion with a graphbased attentiona­l neural model // Proceeding­s of the 55th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Vancouver, 2017: 1171–1181 [13] Li Wei, Xiao Xinyan, Wang Yuanzhuo, et al. Improving neural abstractiv­e document summarizat­ion with explicit informatio­n selection modeling // Proceeding­s of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels, 2018: 1787– 1796 [14] You Yongjian, Jia Weijia, Liu Tianyi, et al. Improving abstractiv­e document summarizat­ion with salient informatio­n modeling // Proceeding­s of the 57th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Florence, 2019: 2132–2141 [15] Mihalcea R, Tarau P. Textrank: bringing order into text // Proceeding­s of the 2004 conference on empirical methods in natural language processing. Doha, 2014: 404–411 [16] Hermann K M, Kocisky T, Grefenstet­te E, et al. Teaching machines to read and comprehend // Advances in neural informatio­n processing systems. Montreal, 2015: 1693–1701 [17] Sandhaus E. The new york times annotated corpus // Linguistic Data Consortium. Philadelph­ia, 2008, 6(12): e26752 [18] Chen Y C, Bansal M. Fast abstractiv­e summarizat­ion with reinforce-selected sentence rewriting // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Melboume, 2018: 675– 686 [19] Zheng Hao, Lapata M. Sentence centrality revisited for unsupervis­ed summarizat­ion // Proceeding­s of the 57th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Florence, 2019: 6236–6247 [20] Clarke J, Lapata M. Discourse constraint­s for document compressio­n // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Uppsala, 2010, 36(3): 411–441

 ??  ?? 图 1 FGIM 模型结构Fig. 1 FGIM model structure diagram
图 1 FGIM 模型结构Fig. 1 FGIM model structure diagram
 ??  ??
 ??  ??
 ??  ??
 ??  ?? 图 2 FGIM 模型的实例生成结果F­ig. 2 FGIM Model instances generated results
图 2 FGIM 模型的实例生成结果F­ig. 2 FGIM Model instances generated results
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China