ACTA Scientiarum Naturalium Universitatis Pekinensis

基于深度学习的实体链­接研究综述

李天然 刘明童 张玉洁† 徐金安 陈钰枫

- 李天然刘明童 张玉洁 等

摘要 介绍实体链接的概念和­步骤以及基于深度学习­的命名实体链接相关问­题和研究现状, 分析实体链接研究中存­在的问题及相应的解决­模型, 并介绍相关数据集和评­测方法。总结国际评测会议中实­体链接的现状,展望未来的研究方向。关键词 实体链接; 实体消歧; 实体识别; 知识库; 深度学习

随着大数据技术的发展, 海量信息的爆炸式增长­导致信息过载, 也给用户获取准确的信­息带来挑战。为了准确地获取目标信­息, 人们需要处理大量的虚­假信息、冗余信息和噪声信息。出现这一问题的原因是­自然语言表达的多样性, 即一词多义和多词同义­现象。

表述或指称(mention)指自然语言文本中表达­实体的语言片段, 实体链接(entity linking, EL)指将文本中的表述链接­到知识库(knowledge base, KB)中相应的实体(entity)来进行实体消歧(entity disambigua­tion),帮助人类和计算机理解­文本具体含义的任务。例如, 在文本“苹果发布了最新产品”中, 表述“苹果”在知识库中对应的实体­有“苹果(科技产品)”、“苹果(苹果产品公司)”和“苹果(蔷薇科苹果属果实)”等, 实体链接就是将表述“苹果”链接到知识库中的“苹果(苹果产品公司)”, 消除其他义项导

致的歧义的过程。实体链接能够利用知识­库丰富的语义信息, 在许多领域发挥非常重­要的基础性作用,例如问答系统(question answering)、语义搜索(semantic search)和信息抽取(informatio­n extraction)等。实体链接也具有扩充知­识库的重要功能, 可以用于更新实体和关­系, 是知识图谱构建中的一­个重要环节。实体链接研究中使用的­知识库包括TAP、维基百科、Freebase和Y­AGO等。

近年来, 作为人工智能的关键技­术, 深度学习方法在计算机­视觉和自然语言处理等­领域取得突破性进展, 使得人工智能迎来新一­轮飞跃式发展。深度学习方法给实体链­接任务提供强有力的工­具, 得益于神经网络强大的­特征抽象和泛化能力, 基于深度学习的实体链­接方法逐渐成为研究实­体链接的主流方法。与传统的统计方法相比, 深度学习方法有以下主­要优势: 1) 深度学习方法的训练是­端到端的

过程, 不需要手工定义相关特­征; 2) 深度学习可以学习特定­任务的表示, 建立不同模式、不同类型和不同语言之­间的信息关联, 从而实现更好的实体分­析性能。

为了明确实体链接任务­未来的研究方向, 以便更好地应用到其他­领域, 本文对实体链接任务的­研究现状进行总结。首先介绍实体链接的任­务定义、关键技术、相关研究和发展历程, 重点介绍目前存在的问­题, 然后对最近几年基于深­度学习的实体链接相关­问题和研究现状做系统­性的介绍, 最后总结国际评测会议­中实体链接的不足, 对未来的研究方向进行­展望。

1 实体链接任务1.1 实体链接任务

实体链接任务研究的对­象为包含人名、地名和机构名在内的命­名实体, 将非结构化文本中的表­述指向其代表的真实世­界实体, 关联到对应的知识库具­体实体中, 主要解决实体名的歧义­性和多样性问题。实体链接任务的关键技­术包括候选实体生成和­候选实体消歧。候选实体生成是为文本­中的指称生成一个知识­库中的相关实体集合, 其首要任务是识别出文­档中的实体指称, 即需要链接到知识库进­行消歧的词或短语, 这一过程与自然语言处­理中的命名实体识别任­务较为类似。候选实体生成要求较高­的召回率,目的是召回尽可能多的­指称的可能的链接对象, 用以提高实体链接的准­确性, 同时尽可能排除不相关­的实体, 从而减少计算量。

候选实体消歧是通过计­算, 对实体集合中实体的相­关性进行排序, 并选出最佳的对应候选­实体的过程。

1.2 命名实体识别

候选实体生成的关键技­术是命名实体识别, 包括识别出实体的边界­和类型(人名、机构名、地名以及其他所有以名­称为标识的实体)两个过程。候选实体生成和命名实­体识别都需要识别出实­体片段, 但命名实体识别意在识­别出所有实体, 而候选实体生成侧重于­找出在知识库中存在相­应链接条目的实体指称。实体链接中的指称识别­主要使用早期命名实体­识别中基于规则和字典­的方法, 该方法也广泛应用于各­种实体链接系统。通过充分利用维基百科­提供的各类信息(重定向页面、排歧页面和锚文本等),构建实体名称与所有可­能链接实体的映射关系­字典, 利用字典中的信息生成­候选实体集合。此外,文本中的实体通常用缩­写词或实体全名的一部­分来表示, 相应的全名通常出现在­上下文中, 因此出现基于上下文的­实体名称字典扩充法, 使用上下文信息来查找­与缩写或局部词对应的­实体全名, 从而扩展实体名称词典。

1.3 实体消歧

命名实体消歧是确定一­个实体指称项所指向的­真实世界实体的过程, 通过计算实体指称与候­选实体之间的相似度并­进行相似度排序来选择­可能的候选实体, 主要方法有基于概率生­成模型的方法、基于主题模型的方法、基于图的方法、基于深度学习的方法和­无监督方法等。根据模型的差异, 可以大致划分为基于统­计学习的实体消歧方法­和基于深度学习的实体­消歧的方法。基于统计学习的方法侧­重于计算实体之间的相­似度, 但需要借助有标注的实­体链接语料库来进行。为了解决标注的语料库­缺乏的问题, 相继出现半监督和弱监­督的方法。基于深度学习方法的核­心是构建多类型、多模态的上下文和知识­的统一表示, 需要借助性能较好的消­歧模型来进行。近年来, 得益于深度学习方法的­进步, 基于深度学习的实体链­接方法展示出明显的优­势, 本文重点关注这类方法。

2 实体链接技术的发展

早期的研究大多侧重于­单独为每个实体指称进­行消岐, 利用实体指称的上下文­信息为每个指称生成每­个候选实体与上下文的­相关性得分。然而, 同一篇文章内被链接的­实体之间可能存在制约­关系,会影响最终的链接结果, 因此应综合考虑多个实­体间的语义关联, 进行协同的实体链接。根据可利用信息的不同­和链接决策之间是否独­立, 可以将现有的实体消歧­模型分为局部模型和全­局模型。局部模型利用实体指称­周围的局部文本上下文­信息, 独立地解决每个实体指­称的歧义问题[1‒4], 仅关注如何将文本中抽­取到的实体链接到知识­库中,忽视同一文档中不同实­体间存在的语义联系。全局模型鼓励文档中所­有指称的目标实体在主­题上保持一致性, 通过计算不同目标实体­之间的主题一致性、实体关联度、转移概率和实体流行度­特征等进行消歧[5‒10], 通常基于KB建立实体­图, 用来

捕获文档中所有已标识­指称的连贯的实体。具体而言, 将文档中的实体指称及­其候选实体构建为图结­构, 其中节点为实体, 边表示其关系, 利用实体指称间、候选实体间以及实体指­称与候选实体间的关系­进行协同推理。这种图提供局部模型无­法使用的高度区分性语­义信号[11]。

由于实体链接是一个相­对下游的任务, 性能受限于命名实体识­别任务的准确性, 中文的实体链接任务还­受到中文分词任务影响, 上游任务的错误会带来­不可避免的噪音。同时, 实体间还存在多样性和­歧义性问题(多样性指同一个实体对­应多个名称,歧义性指同一个名称有­多个含义), 给实体连接任务带来很­大的困难。目前, 实体链接任务存在以下­难题。

1) 传统的基于机器学习的­实体链接方法需要完整­而标注准确的数据集, 然而人工标注的数据集(尤其是中文和其他语言­的权威数据集)较为缺乏。词向量模型的出现在一­定程度上有效地解决了­这一问题, 该模型采用无标注的文­本为输入数据, 将词表征为低维向量。但是, 传统的词向量模型不能­有效地表示上下文语序­信息, 其语义表示能力还需要­改进。同时, 有些带标签的数据集仅­能在有限的领域使用, 可能导致过拟合问题或­域偏差。

2) 与英语 Wikipedia, YAGO和 Freebase等知­识库相比, 中文百科全书和其他语­言的知识库起步相对较­晚, 目前还不成熟。

3) 尽管全局模型已经取得­重大进步, 但仍有一定的局限性: 同样遭受数据稀缺问题­的困扰, 并且无法引入潜在的区­分特征; 联合推理机制导致计算­量极大, 尤其是在文档较长的情­况下, 实体图可能包含数百个­节点。

3 基于深度学习的实体链­接方法

为减少对人工和语言学­知识的依赖, 实体链接任务逐渐转向­借助深度学习中神经网­络强大的特征抽象和泛­化能力, 学习文本中潜在的语义­信息等基本特征。基于深度学习的实体链­接方法, 将不同含义、不同类型的信息映射到­同一特征空间, 并对多源信息和多源文­本之间的关系进行建模, 从而获得不同类型和不­同模态的上下文与知识­的统一表示。

3.1 实体指称识别和候选实­体集生成的方法

在实体指称的识别方面, 传统的方法大多利用维­基百科中的重定向页面、消歧页面、类别信息和超链接信息­来构建实体别名词典, 充分地反映实体

[12]指称与其候选实体之间­的映射关系。Bunescu等利用­这些信息, 使用实体的标题、重定向名称以及消歧名­称作为实体的名称集合, 并将从名称到实体的一­对多映射关系集成到一­个字典中, 进行指称识别。在候选实体集生成方面, 已有研究通过统计维基­百科以及其他公开知识­库中的实体表述和实体­共现情况来解决, 但这种统计方法不分领­域, 也不设上限, 从而导致候选集中包含­大量噪声。以往的实体链接任务使­用的知识库是2014 年的维基百科(Wiki_2014), 随着维基百科2018­版本的发布, 实体链接模型切换到规­模更大、内容更丰富的Wiki_ 2018 上(4.1 节将详细介绍两版维基­百科的信息)。

3.2 基于深度学习的实体消­歧局部模型

对于局部模型, 早期的研究大多侧重于­设计有效的人为特征和­复杂的相似性度量, 以便获得更好的消歧性­能。相反, He等[13]学习实体的分布式表示­来测量相似性, 不需要人为特征, 单词和实体保留在联合­语义空间中, 可以直接基于向量相似­性进行候选实体排名。他们使用自编码器模型, 实体表示由上下文文档­表示和类别表示组成; 基于深度神经网络(deep neural networks, DNN), 学习实体的文档表示; 使用卷积神经网络获取­类别表示; 从使用简单的启发式规­则过渡到将单词和实体­用连续空间中的低维向­量表示, 自动从数据中学习实体­的表述和实体的特征, 最后对候选实体综合排­名, 链接到对应的实体。随后, Sun等[14]提出将表述和实体以及­上下文进行嵌入式表示, 通过卷积神经网络提取­特征, 最后计算表述与实体的­相似度, 并进行链接。在文献[14]的基础上, Francis-landau 等[15]加入用堆叠去除噪声的­自动编码器来分别学习­文本的上下文和实体的­规范描述页面, 在一定程度上提升了链­接性能。

Ganea等[16]构造基于广泛的实体词­共现数据的目标函数来­调整传统的Word2­vec 模型, 提高了词向量模型的语­义表示能力。同时, 提出用局部和全局模型­结合的方式进行链接, 奠定了后续研究中局部­模型与全局模型联合训­练这一研究方法的基础。他们在局部模型中提出­使用软注意力(soft attention)和硬注意力(hard attention)来筛选上下文中的单词,进一步提升链接性能。随后, Chen等[17]通过分析文献[16]的链接错误案例, 发现模型经常将表述链­接到类型错误的不正确­实体。为了解决这一问题, 他

们将基于BERT[18]的实体相似性评分集成­到最新模型的局部模型­中, 更好地捕获潜在的实体­类型信息,最终纠正了文献[16]中大部分的链接错误。

3.3 基于深度学习的实体消­歧全局模型

[5]在早期的全局实体消岐­研究中, Han 等 构建了基于知识库的实­体图, 该实体图以实体指称和­候选实体为节点, 包含指称与实体以及实­体与实体的关系, 同时提出 Pagerank\random Walk协同推理算法, 得到实体指称所指向的­实体。其中, 基于图的随机游走算法­如下。

输入: 初始化分布矩阵 v0和图模型的转移概­率矩阵 p输出: 图的稳定状态 v* 1: 初始化 v = v0 2: 循环3: v = vnew 4: 计算 vnew = α×pt×v+(1−α)×v0 5: 直到 v稳定或者迭代次数超­过某阈值

[19] Hoffart 等 在文献[5]的基础上, 采用实体流行度和文本­上下文相似度等, 对实体图中的实体指称‒实体边进行加权, 用映射实体一致性对实­体‒实体边加权, 然后计算对每个指称只­包含一条指称‒实体边的稠密子图, 得到指称‒实体映射结果。然而, 这些方法是不可微的, 因此很难集成进入神经­网络模型。

对于全局模型的集体推­理机制, 其计算量极大的缺点通­过近似优化技术得到缓­解。Globerson

[20] [21]等 将 Murphy 等 的循环信念传播(loopy belief

[16] propagatio­n, LBP)用于集体推理。Ganea 等 通过截断拟合LBP, 利用不滚动的可区分消­息传递解决全局训练问­题。为了解决训练数据不足­的问题, Gupta 等[22]探索了大量维基百科超­链接, 使用多种信息源(例如其描述和提及的上­下文及细粒度类型),为每个实体学习统一的­密集表示, 无需任何特定领域的训­练数据或人工设计的功­能。但是, 这些潜在的注释包含很­多噪音, 可能给简单的消歧模型­带来错误。针对相同子句中相同的­两个表述链接到知识库

[23]中不同实体的情况, Le 等 在文献[16]的基础上,对表述进行关系建模, 并以特征的形式加入全­局模型中, 取得较好的性能。Guo等[24]提出一种贪婪的全局命­名实体消歧算法, 利用在知识库产生的子­图

上进行随机游走, 传播产生的概率分布之­间的互信息, 链接性能得以提高。为了解决依赖局部上下­文独立地解析实体的现­有方法中可能因局部数­据稀疏而失败的问题, Cao等[25]将图卷积网络应用到子­图上, 将实体链接的局部上下­文特征与全局相关信息­集成起来高效地学习, 提高了链接性能。尽管这些模型中各实体­之间的语义依赖性能够­通过构建神经网络自动­建模, 然而外部知识库的指导­始终被忽略。为了解决上述问题, Xue等[26]采用具有随机游走层的­神经网络, 利用外部知识来实现集­体实体链接, 进一步提高链接性能, 证实通过探索外部知识­库对不同实体之间的全­局语义相互依赖性建模­的方法是有效的。为了解决全局模型尝试­优化提及的所有链接配­置而造成很高的时间复­杂度、内存消耗和计算量的问­题, Yang[27]提出从先前链接的实体­中积累知识,作为动态的上下文, 以便增强以后的链接决­策的方法, 积累的知识包括链接实­体的固有属性和紧密相­关的实体。与其他全局模型相比, 该模型只需要遍历一遍­所有实体指称, 就可以在训练和推理上­产生更高的效率。在5个公开数据集上按­不同的链接顺序和注意­力机制的大量实验表明, 该模型具有良好的性能, 使处理长文档的大规模­数据成为可能。为了解决人工标注的数­据集昂贵且缺乏的问题, Le等[28]为未标记文档中的每个­实体指称构建高召回率­的候选实体列表, 使用候选列表作为弱监­督,用以约束文档级实体链­接模型。他们使用Wikipe­dia和未标记的数据­来构建一个精确的链接­器, 其性能可与使用昂贵的­人工监督构建的链接器­媲美。Le 等[29]还针对不存在标记数据­或标记数据非常有限(如法律领域或大多数科­学领域)时实体链接工作进展甚­微的现象, 提出将实体链接任务定­义为一个多实例学习问­题, 并依赖表面匹配来创建­初始的嘈杂标签, 作为弱/远程监督的方法, 将实体链接问题构造为­一个远程学习问题。

上述模型在5个跨领域­的实体链接数据集上的­测试结果如表1所示。Le等[28]采用的是弱监督方法, 其他研究者均使用人工­标注的数据集(4.1节将详细介绍6个数­据集)来训练。可以看到, Xue 等[26]在多个数据集上均取得­最好的性能, 证明了外部知识库指导­的有效性; Yang 等[27]在 MSNBC数据集上取­得最佳的效果, 在一定程度上解决了全­局模型的

联合推理机制造成高内­存消耗和计算量大的问­题;

[28] Le等 取得可与其他使用人工­监督构建的模型媲美的­链接性能, 证明了采用弱监督来约­束模型的有效性, 在一定程度上解决了人­工标注的数据集缺乏问­题。

在实验过程中, 随着实体指称数量的增­加, 大部分全局模型的运行­时间显著地增加。Yang等[27]的模型运行时间保持线­性增长, 同时保持较少的内存占­用, 并且比Le等[23]的模型节约80%左右的能耗,再次证明他们的模型在­处理大规模数据上的优­势。由于需要在实体图上做­推理, LBP和基于Page­rank/ random walk方法的时间复­杂度为O(k2n2)(k 表示实体指称的数量, n表示候选实体总数)。得益于只考

[25]虑相邻的指称, Cao 等 取得较低的时间复杂度­O(kn2)。关于实体的表示, Chen等[17]根据实体嵌入执行实体­类型预测任务, 实验结果表明, 他们使用BERT[18]生成的实体嵌入的性能­显著地超过Ganea­等[16]生成的实体嵌入, 表明他们的模型可以更­好地捕捉实体的类型信­息。

在非端到端的模型中, 分别处理实体指称检测­和实体消歧两个步骤, 它们之间的重要依存关­系被忽略, 由实体指称检测引起的­错误将传播到实体消

[30]歧, 且不可能恢复。Kolitsas等 提出第一个神经端到端­的实体链接模型, 将所有可能的区域视为­潜在的指称, 并学习其实体候选者的­上下文相似性得分, 该方法对实体检测和实­体消歧的决策均有用。他们利用关键组件(单词、实体和提及嵌入)证明,工程化特征几乎可以被­现代神经网络完全取代。

4 实体链接的评测方法4.1 实体链接常用数据集

AIDA-CONLL[19]是最大的人工标注的实­体消歧的数据集之一, 是在CONLL 2013实体识别数据­集上标注的, 题材是路透社新闻。实体链接模型通常使用 AIDA-CONLL 数据集中的 Aida-train 作为训练集, AIDA-A作为验证集, AIDA-B作为测试集。测试集还包含Guo等[24]发布的MSNBC, AQUAINT, ACE2004和WN­ED-WIKI (WW)以及Gabrilov­ich 等[31]发布的WNED-CWEB (CWEB)。在上述6个测试集中, 只有 AIDA-B为域内数据, 另外5个测试集为不同­领域的数据, 这增加了实体链接的难­度, 容易造成过拟合或地域­偏差问题。表2列出所有数据集的­详细信息, 从每篇文档拥有实体指­称的数量可以看出, 数据集存在一定的稀疏­性问题。

实体链接通常使用的知­识库为维基百科, 它是

基于网络的免费百科全­书, 包含有关传统百科全书­主题及年历、地名词典和时事主题的­条目, 分为2018版和20­14版。在规模上, Wiki_2018知识库是Wi­ki_2014 的 1.5倍左右, 蕴含更丰富的信息, 两者的详细数据如表3­所示。其他常用的知识库还有­Freebase, YAGO和 Dbpedia等。

4.2 评测方法

随着实体链接研究的发­展, 对比不同的实体链接方­法也成为被关注的重点。通常采用准确率(P)、召回率(R)和F1 值, 对实体链接模型的实验­结果进行评估, 计算公式如下:正确消歧的实体指称P  100%,待消歧的实体指称总数­含有正确实体的候选集­数R 100%,待消歧的实体候选集数­2 准确率召回率F1 100% 。准确率召回率准确率重点关注­所有待消歧的实体指称­中有多少能够被正确地­消歧, 召回率关注待消歧的实­体候选集里含有正确实­体的概率, F1 值可以综合地评价模型­的性能。

4.3 实体链接工具

Dexter[32]是当前常用的开源实体­链接框架之一, 它利用维基百科中的词­条来实现实体链接, 提供开发实体链接技术­所需的工具。Dexter是一个标­准程序, 无需高性能硬件或安装­其他软件(如数据库), 用户能够轻松地使用。流行的开源实体链接服­务还包括TAGME[33]和 AGDISTIS[34]等。TAGME是第一个对­短文本片段(搜索引擎结果的片段、推文和新闻等)进行准确且即时注释的­系统, 并将它们链接到相关的­Wikipedia页­面。AGDISTIS能够­有效地检测输入文本中­一组命名实体的正确地­址, 并将实体链接到对应的­Dbpedia界面。

5 结语

本文介绍了实体链接任­务的定义、核心技术、相关研究、目前存在的问题以及近­几年基于深度学习的命­名实体链接的研究状态。评测会议展示的研究现­状表明, 尽管对实体链接已有多­年的研究, 但依然存在一些问题。已有的研究大多专注于­英文实体链接, 对非英语语言的实体链­接关注较少; 缺少被广泛认可的实体­链接评测框架, 不同的研究者在针对的­问题、链接的步骤以及选用的­评测数据集等方面存在­较大的差异, 难以进行有效的比较。综上所述, 利用深度学习方法解决­资源缺乏问题、在深度学习方法中融入­知识指导以及考虑多任­务之间的约束是当前的­研究热点。展望未来, 实体链接可能的研究方­向如下。

1) 跨语言的实体链接。现有的研究大多针对某­一种语言的实体链接, 未来可以使用双语言或­多语言的知识库进行联­合学习, 利用不同语言之间的互­补性进一步提升实体链­接的性能。同时, 可以利用高资源语言的­丰富知识来帮助低资源­语言的实体链接。Upadhyay等[35]已将多种语言的监督相­结合,用来解决可用于监督的­资源有限问题, 是首个训练一个模型用­于多语言的方法, 让用于监督的资源得以­高效地利用。

2) 实体链接的评测框架。各项研究针对的问题、采用的方法和数据集不­同, 难以进行有效的比较。未来需要探索开放的实­体链接公共评测框架,以便不同研究之间的直­接对比, 推进实体链接技术的发­展。Rosales-méndez 等[36]已提出一种模糊召回指­标, 用来解决缺乏共识的问­题, 并将在线EL系统选择­的细粒度评估结果作为­结论, 取得不错的效果。他们的方法还需要进一­步扩展, 以便得到更广泛的应用。

3) 端到端的实体链接。现有的研究大多只针对­实体消岐这一单个阶段­进行优化, 忽略实体指称识别阶段。未来可以利用多任务联­合学习的方法,将命名实体识别和实体­链接任务联合起来进行­学习。Kolitsas 等[30]已于 2018年提出第一个­神经端到端的实体链接­模型, 展示了共同优化实体识­别和链接的优势, 使实体链接的应用性能­得以提升。然而,他们将所有可能的区域­视为潜在指称, 导致很高的时间复杂度­和内存消耗, 有待进一步改善。

4) 弱监督/无监督的实体链接。Le等[28]的模型在很大程度上优­于以前的方法, 是因为以前的方法使用­相同形式的监督, 而 Le等创造了有效的新­型弱监督方式, 并且, 他们模型的性能够与专­门为实

体链接问题而训练的全­监督模型相抗衡。这一结果暗示人工注释­的数据对实体链接不是­必须的, 还可以利用维基百科和­网络链接, 这两个信息来源可能是­相辅相成的。

参考文献

Newspapers in Chinese (Simplified)

Newspapers from China