A Method for Semantic Roles Labeling Consistency Calculation Based on Multi-features

KE Yonghong1,†, ZHU Yongfu2, SUI Zhifang2, YU Shiwen2

ACTA Scientiarum Naturalium Universitatis Pekinensis - - Contents -

1. School of Chinese Language and Literature, Beijing Normal University, Beijing 100871; 2. Institute of Computational Linguistics, Peking University, Beijing 100871; † E-mail: keyonghong@126.com

Abstract The authors state an automatic method for semantic role labeling consistency calculation, based on the features of annotated corpus’ format, structure, content and user performances. The expriment shows that the proposed method is fast, stable and has high recall rate, and it can greatly improve the quality and efficiency. Key words corpus; multi features; consistency calculation; semantic role labelling

语料库是自然语言处理研究和应用的基础资源, 自然语言处理系统的性能和鲁棒性在很大程度上取决于建模过程中是否有足够的高质量标注语料。近年来, 基于深度学习的深度神经网络(deep neutral network, DNN)模型大行其道, DNN 模型更加凸显对大规模、高质量标注语料的强烈需求。语义角色标注是对句子中的相关体词性成分在谓词表达的事件框架中扮演的语义角色进行标注,其本质是句子浅层语义分析的一种方法, 在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有广泛的应用。语义角色标注语料库是自然语言处理研究和应用的基础性资源之一, 高效并可靠的一致性检查是建设大规模、高质量语义角色标注语料库的必要工作。目前, 标注语料一致性检验主要依赖人工。人工检验基本上可以保证标注

的准确性, 但是主观性强, 效率低, 代价高昂, 是制约语料标注质量和效率的因素之一。本文尝试基于多个特征来实现语义角色标注一致性的计算, 以期提升语义角色标注一致性检查的速度和质量。

1 相关工作

目前, 针对机器自动计算文本标注语料的一致性的研究成果不多, 仅有的一些研究集中于词义和词性标注方面。虽然针对词层面的一致性自动检查

[15]方法 有许多值得借鉴的地方, 但语义角色标注面对的语料和标注方法更复杂, 直接使用以往的方法不能取得好的效果。

Proposition Bank[6]是目前相对完整、规范的语义角色标注语料库。与英语相比, 中文语义角色标注语料库的研究和建设起步较晚。由于研究目的不

国家重点基础研‒究发‒展计划(2014CB340‒504‒)资助收稿日期: 2017 01 20; 修回日期: 2017 11 27; 网络出版日期: 2017 11 28

同, 本研究组承担的国家重点基础研究发展计划“融合三元空间的中文语言知识与世界知识获取和组织”项目的语义角色标注有自身的一套标注规范,导致我们不能直接使用现有的语义角色标注语料。我们尝试过基于神经网络的语义角色自动标注方法[78], 但受限于训练语料规模, 未能达到预期效果。由于一致性检查注重错误标注的召回率, 而自动语义角色标注更关注正确率, 因此在实际标注过程中, 我们使用自动标注方法进行初步标注, 在此基础上再由人工标注, 最终通过一致性计算来查找可能出错的标注。

为提升标注速度和质量, 我们开发了一个协作式标注平台。我们发现, 标注过程中的用户行为数据对评价标注一致性有非常重要的影响, 如用户在某一类语料上的修改次数越多, 或是标注时间越长,说明该类语料的标注难度越大, 这类语料的标注结果需要重点关注。用户过往标注的正确率可以反映用户的标注能力。通过用户行为数据分析, 可以为标注一致性检查提供非常有价值的参考数据, 而这些数据是改进标注系统、推动标注进展的关键。但基于用户行为分析标注一致性, 不仅需要好的模型,更需要大量而详尽的用户数据。鉴于目前的研究条件尚不充分, 我们在本文方法中加入初步的用户标注可信度计算。语义角色标注的一致性计算既有重要的研究价值, 又有广泛的工程应用前景。但是, 目前对语义角色标注一致性计算的研究不足。因此, 本文提出基于多特征的语义角色标注一致性计算方法。

2 基于多特征的语义角色标注一致性自动检验方法

语义角色标注一致性计算的目标是根据标注规范、标注文本特征和用户行为数据, 为标注结果计算一致性打分, 减轻人工检查的工作量, 提升标注质量。图 1描述该模型的流程。

从图 1 可以看出, 模型的执行过程包括以下几步: 1) 对输入的标注语料进行格式检查; 2) 对输入的标注语料进行结构检查; 3) 对输入的标注语料进行内容检查; 4) 根据格式、结构和内容检查结果, 生成错误 id 字符串; 5) 根据以往的修改记录, 计算该用户的可信度; 6) 根据用户可信度和错误 id 字符串, 生成该条标注的一致性得分, 进行打印输出。

2.1 输入语料

模型的输入为经过语义角色标注的文本及相关附加信息, 其格式如表 1 所示。

2.2 格式检查

格式检查主要依据标注规范, 检查标注文本的基本格式, 包括标注文本是否修改了原始语料, 标签格式是否正确(符号配对和多余空格), 标签是否符合操作规范的定义, 等等。格式正确是最基本的要求, 格式错误会导致标签内容提取错误。因此,一旦检查到格式错误, 算法会停止检查, 直接输出错误信息。如果格式检查正确, 则返回的错误 id 为0。格式检查能够发现的 4种错误如表 2 所示。

2.3 标签检查

标签检查主要包括数量检查、标签互斥关系检查和标签依存关系检查 3 个方面, 可以检出的错误如表 3 所示。

2.3.1 数量检查

语义角色标注是对句子中的相关体词性成分在谓词表达的事件框架中所扮演的语义角色进行标注, 因此每条标注有且仅有一个谓词。如果标注文本未出现谓词标记或出现多个谓词标记, 则判定为错误的标注。表 4列出部分示例。2.3.2 互斥性关系检查互斥关系检查主要包括以下两个方面。1) 一条标注中同一标签至多出现一次, 如果一个谓词有多个论元的论旨角色相同, 则应当采用[%+ %]或[%& &]标签来辅助标注。[%+ %]用来标记部分论元成分, [%& &]用来标记同指论元

成分。下面两种标注是正确的: ① [%施事 他] 将 陪同 [%+施事 美国人] [# 访问 #]; ② [%&与事 主任 %] 要 [%施事 我 %] 随时 [%内容 把 有关 情况 %] [# 通知 #] [%与事他 %]。2) 部分不同标签之间彼此不能共存, 如具有从 属关系的标签“时间”和“时段”不能同时出现。2.3.3 依存关系检查大部分标签可以独立使用, 少数标签不能独立使用, 必须依赖于独立的标签。例如“同事”的角色全称是“共同施事”, 标注那些需要两个或两个以上的施事共同完成的谓词, 它的存在必须要在“施事”角色已经存在的前提下:

① [%施事 代表们%] [%同事 和厂长%] 进行了[#谈判 #];

② 其实 [%施事 他%] 也是看中[%同事 和中国大陆%] [# 做生意 #] 的机会。

2.4 内容检查

内容检查就是检查标签角色与标签标记的文本内容语义是否一致, 是语义角色标注一致性计算的重点内容。我们通过计算标注文本和标注范例之间的余弦相似度, 基于 tf-id 来计算语义角色一致性,这种方法检验出的结果依赖于训练数据的覆盖率和准确率。内容检查的流程如图 2 所示。余弦相似度指利用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异, 余弦值越接近 1,表明夹角越接近 0°, 也就是两个向量越相似, 其计算公式为

对于输入数据中的语义角色标签 X, 可以将其标注的语义内容视为由一个个切分后的最小粒度terms 的 tf-idf 相似度组成的向量 A。提取训练数据中该语义角色标签 X 标注下的所有内容, 可以得到待比较向量 B 的集合, 获取向量 A 与向量 B 的最大相似度, 即可作为标签 X标注的语义内容的检查结果。

为了计算每条 terms 的 tf-idf 值, 需要获取这些 terms 的 df 词典和 tf 值。terms 的 df 值为训练数据中该 terms 出现的次数, tf 值是该条标注中该terms 出现的次数。计算 tf-idf 时使用加 1 平滑, 这样, 一条 terms 的 tf-idf 值就是tf _ idf[terms]  (tf[terms]  1) / (df[terms] 1) 。 (2)得到每条标签的相似度后, 还需进行一致性的综合计算, 以此作为该条标注在这一步检查中的最终扣分。对于一条标注 A, 假设其标签包括a1, a 2, …, an, 将单个标签 ai 标注的语义内容的最大相似度定义为 max_similarity [ai], ai的扣分定义为score[ai], 它与 max_similarity[ai]之间有如下的函数关系:

采用这样的非线性策略计算 score[ai], 是想突出那些存在很大错误嫌疑的标签, 因为一旦出现最大相似度小于 0.1 的标签, 就极有可能是错误的标注。A 的最终扣分 score[a]的计算也是出于同样的 “木桶原理”, 如果出现相似度极低的标签, 那么这条标注会归类到错误的结果中。

2.5 用户可信度计算

输入中的用户 id 字段标记了该条标注出自哪个用户, 据此可以分析这个用户在某批数据标注中的整体表现, 获取该用户的可信度得分。该可信度得分可用于该用户的所有标注。

对特征的检查结果, 在算法中用 error_id 进行记录。一条标注的错误 id 字符串是后续用户可信度和标注最终得分计算的重要参数, 在算法中是由[0, 5]组成的字符串(形如“0453”), 由每一步对特征检查得到的错误 id 拼接而成, 具体描述如表 5所示。

如果该用户在某次标注中表现很差, 说明该用户在标注这批数据时的状态可能不大好, 或者该用户标注能力有限。出于召回错误标注的考虑, 需重新检查该用户标注的数据。因为不能排除用户能力提高和状态调整的情况, 所以单一批次标注数据的检查结果不影响该用户的下批数据标注。

根据标注特征检查结果(即返回的错误 id)进行加权处理, 结果如表 6所示。用户最后的可信度是该标注错误 id 字符串的加权平均值, 其计算公式如下:

2.6 标注一致性分级

我们用得分值表示一致性检查结果。首先, 根

图 基于多特征的语义角色标注一致性计算模型Fig. 1 Model of SRL calculation based on multi-feature

图 2标注语料内容检查流程Fig. 2 Flow chat of content checking

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.