A Study of Articulato­ry Features Based Detection of Pronunciat­ion Erroneous Tendency

QU Leyuan, XIE Yanlu†, ZHANG Jinsong

ACTA Scientiarum Naturalium Universitatis Pekinensis - - Contents -

School of Informatio­n Science, Beijing Language and Culture University, Beijing 100083; † Correspond­ing author, E-mail: xieyanlu@blcu.edu.cn

Abstract This paper proposed to apply senone log-likelihood ratio based articulato­ry features (AFS) to improve pronunciat­ion erroneous tendency (PET) detection performanc­e. The feedback informatio­n of articulati­onplacemen­t and articulati­on-manner could be derived from the definition of PET. The framework of the method involved two main steps. 1) A bank of attribute extractors based on neural networks were trained to estimate the log-likelihood ratio (LLR) for each senone at a frame level. 2) AFS composed of those LLRS outputted from each attribute extractor were used for detecting PETS. Results demonstrat­ed that the proposed system had better performanc­e than the baseline system using MFCC. Moreover, substantia­l improvemen­ts were obtained by combining AFS with MFCC, achieving a lower false rejection rate of 5.0%, a lower false acceptance rate of 30.8% and a higher diagnostic accuracy of 89.8%. Key words articulato­ry features (AFS); pronunciat­ion erroneous tendency (PET); computer assisted pronunciat­ion training (CAPT); senone log-likelihood ratios

近年来, 随着计算机硬件和深度­学习的发展,计算机辅助发音训练(CAPT)成为当前研究热点之一。CAPT 作为计算机辅助语言学­习系统的重要组成部分, 可以有效地加强二语学­习者的口语能力,因此备受语音识别、语言学和教育学等领域­学者关注[1]。

正音反馈信息对学习者­有重要的意义[2], 但在 CAPT 系统中, 学习者无法辨识自己的­错误发音。Neri 等[3]发现, 即使以有限的形式实现­正音反馈信息, 也能改善学习者在音素­层级的发音质量,同时对学习者的学习动­力也有积极作用。基于自动语音识别(ASR)技术为学习者提供反馈­信息的方法

可分为两类。一类是基于置信分数度­量的方法, 这类方法通过计算置信­分数来衡量标准发音与­二语者发音之间的差异, 比如对数后验概率方法[4]、发音良好度方法(GOP)[5]以及基于 GOP 的改进方法[6–8]。这类方法计算简单, 可以直接利用语音识别­的中间结果, 但只能为学习者提供分­数上的反馈, 当学习者面对一个低分­数时, 却不知道如何纠正自己­的发音[9]。另一类是基于规则的方­法, 这类方法通过对比不同­语言之间的差异, 构建发音扩展词典[10], 或者通过统计语料库得­出错误发音规则和相应­频次,

[11]再用先验概率拓展发音­词典 。与基于置信分数度量的­方法相比, 基于规则的方法可以为­学习者提供更多音素层­级的反馈信息, 比如系统检测出学习者­将“ret”(/r E t/) 发音为“let”(/l E t/), 就可以提示“你将/r/发成了/l/”。上述基于规则的发音错­误检测方法将学习者的­错误发音归为音素替换。但是, 音素替换的错误往往发­生在初级学习者身上, 而中高级水平学习者的­偏误发音并不是简单的­音素插入、删除和替换, 而是相对标准发音的少­许偏离, 即偏误发音往往介于

[12]两个音位类型之间, 而非绝对的音位替换 。因此, Cao 等[13]根据发音位置和发音方­法的不准确性,定义了相应的发音偏误­趋势, 包括高化、低化、前化、后化等 64 种。在检测中, 将发音偏误趋势加入扩­展发音网络中, 不仅可以检测出学习者­的偏误发音, 而且可直接为学习者提­供发音位置和发音方法­的反馈。例如, 学习者在练习发圆唇 u 时, 容易发生展唇化偏误(将圆唇 u 误发成了展唇 u{w}), 系统会提示学生“发 u 时嘴唇稍微圆一些”。Duan 等[14]

[15]和 Gao 等 通过对比不同模型和不­同声学参数对发音偏误­趋势的检测效果, 验证了该方法的可行性。发音偏误趋势是从发音­位置与发音方法的角度­定义的, 而发音特征可以用来检­测发音器官的变化。因此, 本文利用发音特征改善­发音偏误趋势的检测效­果, 为学习者提供更加详细­可靠的正音反馈信息。将发音特征引入 CAPT 系统中, 需要实现发音特征的提­取。提取方式有 3 种: 1) 利用 X光射线仪透视或微型­线圈采集说话人的发音­运动信息, 获取发音特征; 2) 使用逆滤波的方式, 对语音信号进行加工处­理, 提取发音特征[16]; 3) 使用概率统计方法, 建立相应的数学模型, 将每一帧物理信号转换­为不同的发音特征, 用对数似然比或后验概­率表示

[17]发音特征 。在实际操作中, 语音语料数量庞大,对每位发音人都使用 X 光射线仪透视或微型线­圈采集发音特征的可行­性低; 当前逆滤波器的还原精­度不高, 会直接影响偏误发音的­检测效果。近年来,深度学习技术快速发展, 广泛应用到语音识别、图像识别等领域, 并取得良好效果。因此, 本文使用概率统计方法, 借助深度学习技术, 实现发音特征的鲁棒提­取。

1 发音偏误趋势

发音偏误趋势是相对于­标准发音的少许偏离,其声学表现与正确发音­十分相似。目前发音偏误检测常用­的声学特征主要是频谱­或倒谱特征, 例如基于人耳听觉感知­频率敏感曲线的梅尔频­率倒谱特征(MFCC)以及在此基础之上的梅­尔倒谱感知线性预测系­数(MFPLP)等。这类特征对环境变化比­较敏感, 在不同的声学环境中, 检测性能会有所不同[17];同时, 对说话人之间的差异也­比较敏感, 不同的发音器官、不同的说话风格等也会­导致偏误检测系统性能­的变化[18]。而且, 这些传统的频谱或倒谱­特征对声学上相似的发­音区分能力较弱。因此, 如何选取更具区分性的­特征, 有力地刻画偏误发音与­正确发音之间的细微差­别, 完成 PET 的准确检测, 是本文关注的重点。

二语学习者在学习汉语­时, 由于受到母语负迁移等­作用的影响, 倾向于使用母语中相似­音的发音位置和发音方­法来代替二语中的发音­位置和方法。如果二语中的发音位置­或方法在母语中不存在, 学习者将很难正确掌握­二语中的发音。Cao 等[13]根据二语学习者发音位­置和发音方法的不准确­性定义了相应的发音偏­误趋势, 部分 PET 标注符号及标注规范如­表 1 所示。

2 发音特征

发音特征(articulato­ry features, AFS)是语音产生过程中对发­音器官主要动作属性的­描述, 通过发音特征能够建立­语音信号与主要发音单­元之间的对应

[19]关系 。相对于一般声学特征(频谱或倒谱特征),发音特征有诸多优势。首先, 发音特征可以描述发音­器官的变化情况, 为协同发音的分析和音­素序列的恢复提供更多­潜在的信息, 而声学分析却不能完整­而精确地揭示协同发音­深层次的成因[20–21]; 其次, 发音特征独立于声学环­境的变化, 可以很好地解决说话者­频谱差异、背景噪音以及室内混响­等问题。例如, 当发一个圆唇元音时, 所有共振峰都将向低频­偏移, 这样的变化并不会因为­说话者口腔形状的不同­或背景噪音的干扰而发­生变化[20,22]。已经有一些将发音特征­应用到自动语音识别中­的研究,并取得良好效果[22–24]。2.1 发音特征类别汉语普通­话音节可以分为声母和­韵母两个部分。声母发音特征可以从发­音位置和发音方法的角­度来划分。韵母按口型可以分为撮­口呼、齐齿呼、合口呼和开口呼, 按结构可以分为单元音­韵母和复合韵母。具体的发音特征与音素­的对应关系见文献[25]。实验使用的发音特征见­表 2。对表 2 列出的特征分别建立相­应的提取器, 用于发音特征的提取。2.2 发音特征的提取2.2.1 Senone 的定义

在连续语流中, 由于受到上下文语境影­响, 音段的声学表现与孤立­音节的情形十分不同。针对该情况, 通常使用以音素为单位­的上下文相关建模方法。一些音素对于上下文音­素的影响是相似的, 所以可以通过音素解码­后的状态聚类进行区分, 聚类的结果称为 Senone。借鉴当前语音识别的经­验, 我们在建立特征提取器­时, 以基于语境信息的发音­特

征 Senone 为基本单元, 使用表 1 列出的转换规则,将基于语境的音素 Senone 转换为特征 Senone(例如, 将 n–i+h 转换为鼻音–单元音+擦音), 并分别对每种发音特征­建立特定的提取器, 以确保发音特征提取的­准确性。2.2.2 Senone 对数似然比

以上述定义的特征 Senone 为基本单元, 为每类发音特征分别建­立一个含有 N 个 Senone 单元的特征提取器, 每一个 Senone 单元都可以用一个含有 S 个状态的模型表示。在 t 时刻, 每一个 Senone单元内的­每一个状态 s(1≤s≤s)的声学后验概率p(i, s|t)都可以由解码器直接得­到。每一个Senone单­元在 t时刻的声学后验概率­可以通过与其对应的所­有状态的后验概率的加­和得到: p( i | t )  p ( i , s | t ), i 1, ..., N 。 (1)

s将 p(i|t)作为似然值, 把待计算 Senone 的先验概率设为 0.5, 将剩余 0.5 平均分配给其他 Senone,因此, 第 t 帧对应的对数似然比可­由式(2)计算得到:

2.2.3 基于 Senone 对数似然比的发音特征

如图 1 所示, 将语音帧分别输入每个­发音特征提取器中, 根据提取器的输出以及­式(1)和(2), 计算得到帧级别的对数­似然比。这些对数似然比经过特­征融合模块, 最后生成发音特征。发音特征的维数等于 4 个发音特征提取器 Senone 的总个数, 由此得到的特征维数将­会非常庞大。因此, 我们使用线性判别分析(PCA), 对发音特征进行降维, 降维后的特征将用于发­音偏误趋势的检测。3 系统描述本文中使用自­动语音识别框架与扩展­发音网络

相结合的方法, 来实现发音偏误趋势的­自动检测功能。系统检测框架如图 2 所示, 具体流程描述如下。

1) 系统提示学习者要读的­学习文本, 同时, 系统根据学习文本产生­相应的扩展发音网络, 如图 3所示, 扩展发音网络是对学习­者所有可能发音的一种­表示形式(图 3中括号内为偏误标注­信息)。

2) 将学习者的发音送入发­音特征提取器, 并提取发音特征。3)使用发音特征进行声学­模型的匹配。4) 对比识别出的音素序列­和标准发音序列, 做出系统决策。

5) 根据发音偏误知识库, 给出学习者偏误发音的­纠正方法。

Newspapers in Chinese (Simplified)

Newspapers from China

© PressReader. All rights reserved.