Research on Automatic Recognition of Auxiliary “DE”

LIU Qiuhui1, ZHANG Kunli1,†, XU Hongfei1, YU Shiwen2, ZAN Hongying1

ACTA Scientiarum Naturalium Universitatis Pekinensis - - Contents -

1. School of Information Engineering, Zhengzhou University, Zhengzhou 450001; 2. Key Laboratory of Computational Linguistics (MOE), Peking University, Beijing 100871; † Corresponding author, E-mail: ieklzhang@zzu.edu.cn

Abstract Based on the triune Chinese function word usage knowledge base (CFKB), the rule-based method, CRF (conditional random field) model and GRU (gated recurrent unit) are adopted to automatically recognize the usages of auxiliary “DE”, and the accuracy rates are 34.4%, 77.5% and 81.3% respectively. In order to improve the accuracy, some usages of auxiliary “DE” are combined and formed coarse-grained usage. The accuracy of CRF achieves 81.8%, and the accuracy of neural network model achieves 84.5%. It is expected that the recognition result of auxiliary “DE” can improve the performance of other NLP task. Key words “DE”; GRU (gated recurrent unit); rule; CRF (conditional random field)

虚词在句子中承担语法特征与相关实词之间的语义关系描述, 是语法研究中的重要内容。在现代汉语的各类虚词中, 助词最具汉语类型学特点, 同时又与各类实词关系最密切, 并且个性最强、变化最快。现代汉语中助词“的”出现频率极高, 表示多种语法关系, 其研究成果对汉语语法研究、汉语教学(特别是对外汉语教学)和自然语言处理等都具有重要的参考价值[1]。助词“的”的用法及其上下文语境信息对整个句子的理解有着重要作用, 并对句法分析有重要的影响。助词“的”用法标注可以为机器翻译系统提供额外的信息, 对机器翻译中目标译文

的语序调整有明显的意义。

目前已有的助词研究大都是面向人类的, 很难直接应用于自然语言处理的机器识别。因此, 对已构建的面向机器的“三位一体”(助词机器词典、助词用法规则库和助词语料库)现代汉语助词知识库进行研究, 并开展现代汉语助词用法的自动识别和应用的研究, 对自然语言的机器识别具有重要的意义[2]。

1 相关工作

20 世纪 20 年代, 黎锦熙[3]在《新著国语文法》

国家重点基础研究发展计划(2014CB340504)、国家自然科学基金(61402419, 60970083)、国家社会科学基金(14BYY096)、计算语言学教育部重点实验室开放课题项目、河南省科技厅基础研究项目(142300410231, 142300410308)、河南省教育厅科学技术研究重点项目(15A520098)和河南省科技厅科技攻关项目(172102210478)资助

收稿日期: 2017–01–21; 修回日期: 2017–11–26; 网络出版日期: 2017–11–28

中对“的”有较为系统的阐述。80年代以来, 对“的”的研究有了进一步发展, 至今, 相关文献已有300余篇。文献[1, 4]综述了多年来对“的”的研究成果,包括对其用法的讨论和划分。近几年, 对“的”的研究重点逐步从面向人类转移到面向机器。俞士汶等[5]提出构建“三位一体”(虚词用法词典、虚词用法规则库和虚词用法语料库)广义虚词用法知识库的思想。在此基础上,昝红英等[2,6–7]和张坤丽等[8]构建了现代汉语广义虚词用法知识库(Chinese function word usage knowledge base, CFKB), 其中包含助词“的”的虚词用法词典、规则库以及用法标注语料库。韩英杰等[9]在构建助词用法知识库过程中, 探讨了基于规则的助词用法自动标注; 同时对基于规则的助词用法自动标注方法自动发现语料的部分词

[10]性、分词错误进行了研究 。由于“的”的用法复杂, 文献[89]指出, 采用规则的方法, 识别效果非常不理想, 而助词“的”又是出现频次最高的虚词,因此对其用法的自动识别成为研究重点。

语法学界和对外汉语教学界对“的”的研究主要针对个例和特例[11]; Chang 等[12]根据“的”在机器翻译中的译法, 将其分为 4 种用法, 颗粒度较粗, 不能全面地反映“的”用法变化。本文描述CFKB 中“的”的用法划分及规则, 39种用法划分能够较细致地描述“的”的用法变化, 并采用规则的方法和 CRF 模型,进行助词“的”用法的自动识别。在此基础上, 探究深度学习的方法, 利用神经网络模型门循环单元(gated recurrent unit, GRU), 自动获取长距离特征, 提高用法自动识别的性能。在规则方法的基础上, GRU 提高 50 个百分点, 与 CRF 模型相比, 减少了人工提取特征的工作量, 性能也稍有提高, 可以推广应用于其他虚词用法的自动识别。

2 助词“的”用法描述

现代汉语中虚词“的”出现的频率较高, 在《人民日报》2000 年 4 月语料中出现 65169 次。根据

[13]吕叔湘的《现代汉语八百词》 、《现代汉语词典》(第 5 版)[14]和张斌的《现代汉语虚词词典》[15],结合《人民日报》的真实语料, 构建助词用法词典,其中“的”包含 11 个义项, 39 种用法。通过释义、用法、例句、搭配和合用等属性, 对助词“的”的用法进行全方位的描述。表 1 仅列出部分属性, 其中各属性的详细说明见文献[7]。

3 助词“的”用法自动识别方法 3.1 基于规则用法自动识别

规则是一种面向机器的用法描述, 即以有序的

[16] BNF 形式 进行助词“的”的用法规则描述。昝红

[6]英等 对面向人类用法的研究结果进行基于 BNF规则的形式化描述, 其中的符号标记采用现代汉语虚词知识库中规则库的标准。根据用法描述, 结合虚词知识库中的例句, 用形式化的规则描述用法,形成面向机器识别的助词用法规则。助词“的”的39 种用法对应的 49 种规则如表 2 所示, 其中用法描述中的上下文特征分别用“L”表示左紧邻, “R”表示右紧邻, “M”表示前合用, “N”表示后合用, “E”表示“句末”, “F”表示句首, 规则的细节描述见文献[2]。

3.2 基于 CRF 用法自动识别

CRF 结合了最大熵模型和隐马尔可夫模型的特点, 是一种在给定输入点的条件下计算输出点概率的无向图模型。它考察输入序列对应标注序列的条件概率, 目的是获得最大化的条件概率[17]。近年来 CRF 在中文分词、词性标注和命名实体识别等序列标注任务中表现较突出。本文通过设置特征模板, 提取当前词、词性以及向前、向后两个词的词、词性等上下文环境信息作为用法识别的依据,特征设置如表 3 所示。

3.3 基于 GRU用法自动识别模型

“的”的用法自动识别模型的核心为 GRU, 为了更好地获取上下文信息, 模型中设置向前查看两个词的窗口。GRU 利用自身的重置门和更新门, 控制记忆单元信息的丢失和保留, 从而获取长距离特征, 并将其作为分类的依据, 用于提高用法识别的准确性。

3.3.1 窗口设置

模型的输入分成两部分词和词性, 通过向量查找方法得到词和词性的向量表示, 并将词向量 vd1和词性向量 vd2拼接成一个新的向量 vt: vt  v  vd2 ,

d1其中, t 表示时间; d1 表示词的向量维度; d2 表示词性的向量维度; 表示向量拼接运算, 简单的向量拼接运算可以保留全部的输入特征。

根据助词“的”的用法特点提出向右查看两个词的方法, 用于提高序列标注的准确率。例如序列“集体/n 的/u_de5_t2_1a 力量/n 。/wj”中, 识别“的”

的用法(“名词+的+名词”)时, 需要向右查看一个词。考虑到名词前可能有其他词修饰, 所以将 GRU 模型的输入窗口设为 3, 即当前词 vt以及向前查看两个词 vt+1 和 vt+2, 则 t 时刻 GRU 模型的输入为

3.3.2 长距离特征获取

近几年, 长短期记忆[18] (long-short term memory, LSTM)模型在序列标注任务中取得较好的成绩。作为 LSTM 模型的拓展, GRU模型参数较少、结构

[19]更简单, 并且在小数据集上结果较好 。GRU 模型利用自身的重置门(reset gate)和更新门(update gate), 控制窗口输入特征的丢失和保留, 降低噪声的干扰, 并将得到的有效特征依次存放在记忆单元中, 从而获取序列的长距离特征。当前时刻的输入xt 和前一时刻的输出 ht–1控制记忆单元 ct 的信息更新, 即: 其中表示向量矩阵对应位置相乘, r =0表示前一时刻记忆单元对应位置的信息被丢弃。更新门 z、前一时刻的输出 ht–1和当前时刻的记忆单元 ct 控制GRU 模型的输出, 即: GRU 模型获取序列“集体/n 的/u_de5_t2_1a 力量/n 。/wj”的长距离特征的过程如图 1 所示, t 时刻 GRU 模型的记忆单元保存“的”左侧的所有词及其词性的有效特征, 同时输入窗口中包含“的”右侧两个词及其词性的特征。利用 GRU 的门结构, 对两部分特征进行选择, 作为 t 时刻的输出。依次循环进行, 序列的最后一个输出单元将包含序列的全部有效特征。将 GRU 模型获取的长距离特征作为

分类的依据, 获取的特征越有效, 虚词用法的分类结果越好。

3.3.3 惩罚函数

本文用多边界(multi-margin)惩罚函数来训练模型。该方法已应用于多分类任务中, 与传统的互信息惩罚函数相比, 不需要指数和对数运算, 计算简单且结果较好。其训练目标是使模型输出的正确分类的分数比错误分类的分数高出一个边界值。误差的计算公式为 其中, n表示多分类任务中的类别数, margin 表示设定的边界值, xi表示模型的第 i 个输出, y 表示正确的类别。在中文文本中, 虚词所占比例较小, 导致模型训练针对占比较大的实词进行, 忽略了任务的重点。针对此问题, 本文提出误差重置方法, 即在惩罚函数计算误差后, 将非虚词“的”的位置误差清零。该方法使得待标虚词之外的词语产生的误差不会影响模型的训练, 从而将模型训练工作的重点转移到待标虚词上, 提高虚词用法识别的准确率。

4实验4.1实验设计

本文在《人民日报》1998 年 1 月和 2000 年 4月的语料中探究助词“的”用法自动识别的方法。该语料按照《北大语料库加工规范: 切分·词性标

[20]注·注音》 完成分词和词性标注, 并经过多次人工校对。采用 3 种方法进行助词“的”用法的自动识别: 基于规则、CRF 模型和基于 GRU 的用法自动识别模型。用召回率 R、准确率 P和调和平均值 F评估 3种方法。

4.2 实验结果及分析

实验中, 对数据中出现的助词“的”的 33 种用法进行自动识别方法研究, 结果如表 4 所示。

从表 4 可以看出, 基于统计的 CRF 模型和基 于 GRU 的用法识别模型自动识别的效果明显高于基于规则的方法, 但是基于统计的方法对数据的需求较高, 所以在训练集中出现频率较低“的”的用法在测试集中很难做出正确的识别, 导致训练集中出

现频率低于 50 的用法在测试结果中有 7 处为“0”。基于规则的方法自动识别的准确率较低, 是由于规则之间允许交叉覆盖, 同一个用法可能对应多条规则, 前面规则的优先级高于后面的规则, 优先级情况不同对用法识别的准确率有很大的影响[21]。CRF模型根据设置的特征模板提取特征, 模板设置的窗口太大会导致模型过度拟合, 太小则会限定上下文语境的影响, 很难做出较好的选择。与 CRF 相比,基于 GRU 的方法可以自动获取特征, 减少人工提取特征的工作量, 但是对数据的需求较高, 很多用法在训练集中出现的频率较低, 导致在测试集上的表现较差。

综合以上分析, 设置合并方案, 将出现频率较低的用法向上合并, 使其能够得到更好的训练。合并方法如下。

义项 1 的归类: 保留 1a, 1b (1ba, 1bb, 1bc, 1bd和 1be 并入 1b), 1c (1ca 和 1cb 并入 1c), 1e (1d 和1f 归入 1e)和 1g。

义项 2 的归类: 所有用法中的 2a, 2b, 2ba, 2c, 2ca, 2cb, 2cc, 2cd, 2ce, 2d 和 2e 并入 2。义项 5 的归类: 5a 和 5b 并入 5。其他义项的归类: 义项 3 (3a, 3b, 3c 和 3d 并入3), 4 (4a 和 4b 并入 4), 7 和 9 归为 3。

在没有信息损失的情况下, 该方法能够提高助词“的”用法识别的准确率。合并用法之后, 助词“的”的用法为 9 种, 基于统计方法的用法识别准确率都提升几个百分点。根据表 5 的统计结果, 发现第 3 和第 4 义项用法的出现频率仍然很低, 所以还 可以从语料均衡性上提高用法识别的准确性。

5 总结和展望

本文对助词“的”的用法和规则进行了描述, 在对基于规则的方法及 CRF 模型进行初步探究后,首次将深度学习方法引入虚词用法的自动识别中,通过设置前向输入窗口, 利用 GRU 模型获取长距离特征, 提高了部分虚词用法自动识别的性能, 为

[22]虚词用法知识库的应用 奠定了基础。将来的研究在两个方向展开: 一方面, 进一步探究深度学习模型, 使其在虚词用法自动识别中有更好的表现和结果; 另一方面, 尝试将虚词用法自动识别算法应用到自然语言处理的其他任务中, 并结合实际任务的需求, 对虚词用法识别方法做进一步的改进。

图 1 GRU获取长距离特征Fig. 1 Obtaining long distance features with GRU

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.