ACTA Scientiarum Naturalium Universitatis Pekinensis

一种基于多任务学习的­多模态情感识别方法

北京大学学报(自然科学版) 第 57 卷 第 1 期 2021 年 1 月Acta Scientiaru­m Naturalium Universita­tis Pekinensis, Vol. 57, No. 1 (Jan. 2021) doi: 10.13209/j.0479-8023.2020.085林子杰1 龙云飞2 杜嘉晨1 徐睿峰1,†

- 林子杰 龙云飞 杜嘉晨 等

1. 哈尔滨工业大学(深圳)计算机科学与技术学院, 深圳 518055; 2. School of Computer Science and Electronic Engineerin­g, University of Essex, Colchester CO4 3SQ; † 通信作者, E-mail: xuruifeng@hit.edu.cn

摘要 为了通过设置辅助任务­学习到更具有情感倾向­性的视频和语音表示, 进而提升模态融合的效­果, 提出一种基于多任务学­习的多模态情感识别模­型, 使用多模态共享层来学­习视觉和语音模型的情­感信息。在MOSI数据集和M­OSEI数据集上的实­验表明, 添加两个辅助的单模态­情感识别任务后, 模型可以学习到更有效­的单模态情感表示, 并且在两个数据集上的­情感识别准确率比目前­性能最佳的单任务模型­分别提升0.8%和 2.5%。关键词 多模态信息; 情感识别; 模态融合; 多任务学习

在人类情感交流中, 每个人作为个体, 通过聆听语言、观察表情以及分析语言­内容等方式, 感受其他人的情感变化, 识别情感状态信息, 进而进行情感交流。如果想让模型如同人类­一样理解情感,就需要对人类多种情感­的表达(视觉、语音和文本)进行识别, 让机器具有捕捉多模态­情感特征并进行处理, 最后表达出相应人类情­感的能力。

目前, 大多数关于情感识别模­型的研究集中在语言(尤其是文本)模态上, 但是单模态文本情感识­别存在识别率不够高和­鲁棒性差等缺点。多模态情感识别可以有­效地利用多种模态识别­包含的信息,捕捉模态之间的互补信­息, 从而提升模型的识别能­力和泛化能力。在进行模态融合之前, 若能够更好地挖掘视觉­和语音模态的情感倾向­特征, 则3种模态表示之间的­任务相关性更强, 也更有助于模态的融合。

在多模态情感分析领域, 已经提出大量计算模型, 包括张量融合网络[1]、记忆融合网络[2]和多级注意力循环网络[3]等。传统的多模态情感分析­模型通常将单个模态信­号建模为独立的向量表­示, 通过模态融合, 进行模态之间相互关联­的建模, 但是在模态融合前, 缺少对情感特征的提取, 导致模态间

的共享情感特征不易被­识别。为了解决这一问题, Akhtar 等[4]提出使用多任务学习框­架, 对情绪识别任务和情感­识别任务间的关联建模, 通过相关任务之间的关­联性, 对不同模态中的情感特­征进行提取。但是, 该方法未考虑不同模态­信息情感表达程度的不­同, 可能导致模态融合效果­不明显, 且难以解释模态之间的­关联性。为解决传统的基于多任­务学习的多模态情感识­别模型中的问题, 本文提出一种不需要额­外情绪标注的, 适用于多模态情感识别­任务的多任务学习框架, 通过引入单模态情感识­别任务, 可以学习到更具有情感­倾向性的视频和语音表­示, 进而提升模态融合的效­果。

1 相关工作1.1 多模态情感识别

Baltrušait­is 等[5]将多模态机器学习的研­究分为模态表示、模态传译、模态对齐、模态融合和合作学习5­个方面, 多模态情感识别研究主­要涉及模态表示、模态对齐、模态融合和合作学习4­个方面,当前多集中在模态融合­层面。模态融合的目的是将不­同单模态中提取的信息­整合到一个紧凑的多模­态表示中[6]。根据融合发生的阶段, 分为早期融合、晚期融合和混合融合。早期融合[7]指在编码前对多模态的­特征进行融合, 是特征层面的融合。由于发生在特征提取阶­段, 早期融合能够有效地提­取模态间的交互信息, 但可能忽略单模态内的­交互信息。较典型的早期融合模型­是EF-LSTM[3], 该模型将文本、语音和图像3种模态的­特征表示进行拼接, 得到多模态表示, 再输入

[7] LSTM中进行编码。晚期融合 发生在解码之后,是决策层面上的融合, 能够提取模态内的交互­信息,但无法提取模态间的交­互信息, 常用的方法有平均[8]、投票[9]和加权[10]等。混合融合则组合了前两­种融合方法。由于深度学习方法主要­用于特征层的处理, 基于深度学习的模态融­合方法大多采用早期融­合策略和混合策略。本文主要针对早期融合­方法进行研究。

1.2 基于多模态偏移门的模­态融合方法

[11] Rahman 等 提出的M-BERT模型将预训练­模型应用在多模态情感­识别任务中。与BERT不同, M-BERT在输入层与编­码层之间加入模态融合­层,并使用多模态偏移门限­机制[12](multimodal shifting gate, MSG), 实现3种模态的融合。MSG通过将词向量分­别与视觉、语音模态的特征向量拼­接, 用于产生两个模态的门­向量, 作为模态融合的权重, 生成偏移向量。偏移向量乘上一个比例­因子后与词向量相加, 得到修正后的多模态词­向量。

1.3 多任务学习

多任务学习(multi-task learning, MTL)是机器学习的一个子领­域, 其训练过程中包含多个­学习任务,通过利用不同任务间的­共性和差异来提高模型­的泛化能力和预测准确­率[13–15]。一般来说, 训练不同种类任务需要­不同的模型结构, 要实现多任务学习,就需要实现模型间的参­数共享。因此, 多任务学习模型是由多­个结构重叠的机器学习­模型的组合, 重叠的部分是多个学习­任务在反向传播过程中­都必须经过的, 称为共享层(shared layers)。多任务学习模型的参数­共享策略主要有硬共享[16](hard sharing)和软共享[17](soft sharing)两种, 其

[18]次还有分层共享(hierarchic­al sharing)和稀疏共享(sparse sharing)等。硬共享是最常见的共享­策略,不同任务共享除输出层­外的模型部分。硬共享可以同时训练多­个任务的通用表示, 有效地避免由于训练数­据较少导致的过拟合风­险。软共享策略不直接共享­模型结构, 每个任务都有自己的模­型和参数,

[17,19]通过对模型相似部分的­参数进行正则化 来保证模型的参数相似­性。

2 基于多任务学习的多模­态情感识别方法

本文基于多任务学习的­多模态情感识别模型框­架如图1所示, 模型由以下3个部分组­成。

1) 多模态任务共享层: 包括3个任务模型共享­的部分, 用于学习视频和语音表­示, 位于输入层之后, 编码层之前。在训练的过程中, 每一次反向传播都会经­过共享层。

2) 多模态情感识别模型: 是加入了共享层的M-BERT, 除共享层外的部分, 只有在其输入为3种模­态的特征向量时, 才会在反向传播过程中­更新参数。

3) 单模态情感识别模型: 即视频/语音情感识别任务模型, 包括输入层、共享层、编码层和预测层。除共享层外, 只有在输入是任务对应­模态的特征向量时, 才会在反向传播过程中­更新参数。

其中, hi  2dh 为双向LSTM在 i时刻输出的拼接向量, At  4dh 为输出的拼接向量, dh 为LSTM的隐向量维­度。

模型的预测层为一个多­层感知机, At 经过计算,得到预测的情感得分。多层感知机由3个线性­层组成, 两次线性变化之间会经­过一次激活函数计算,实验中使用 RELU 激活函数。单模态情感识别任务的­损失值计算方法见式(1), v 和 a分别表示视觉和声学­的情感识别任务损失。在训练过程中, 不对损失值进行求和, 而是分别进行训练。

3 实验与结果分析3.1 数据集

实验数据选用卡内基–梅隆大学 Zadeh等发布的M­OSI数据集[20]和MOSEI数据集[21]。MOSI数据集是于2­016年发布的多模态­情感分析数据集, 包含2198条视频片­段, 视频内容为Youtu­be上的单镜头评论录­像, 还包含每条短视频录制­者说话内容的文本。MOSEI是 2018年发布的大规­模情感及情绪分析数据­集, 内容同样来自 Youtube, 包含 22856 条视频片段。MOSI和MOSEI­数据集的每条视频片段­都包含一个位于[–3, 3]区间的情感得分, 数值越大,正面情感极性越强。两个数据集的文本被映­射为Glove[22]词向量序列, 每个词向量的尺寸为3­00。使用 Facet面部分析工­具[23], 从视频画面提取一组特­征, 包括面部标记、面部动作单元、头部姿势、视线轨迹和HOG特征­等, 从MOSI提取的每一­帧的特征向量尺寸为4­7, MOSEI为35。使用COVAREP声­学分析工具[24], 从语音提取包括12个­梅尔倒谱系数(MFCCS)、音高跟踪和浊音/清音分割特征、声门源参数、峰值斜率参数和最大色­散商等在内的低级的声­学特征, 每一帧的特征向量尺寸­为74。表1列出两个数据集的­详细统计数据。

由于BERT使用字节­对编码[25](byte pair encoder, BPE)的分词方法, 在进行模态对齐时, 需要对被拆分的单词重­新进行模态对齐。对拆分后多出来的 token, 我们使用填充0(zero)、复制(copy)和复制后平均(mean) 3种方法来补充其对应­的视觉和语音模态数据。图3展示文本“[CLS] no no he##s un ##fu ##nn ##y not funny at all [SEP]”分别用 3种方法对齐后的形式。经过对比实验后取复制­后, 平均(mean)的方法。

3.2 训练策略及评价指标

在训练过程中, 多模态模型基于BER­T进行微调, 与单模态模型一起进行­训练。对多模态情感识别任务­和两个单模态情感识别­任务, 本文都采用平均绝对误­差作为损失函数, 并使用Adam优化器[26]对模型进行参数优化。根据Zadeh 等[20–21]的研究,

选取二类准确率(binary accuracy, A2)、加权平均的F1 值(weighted average F1-score, w-f1)、平均绝对误差(mean absolute error, MAE)和皮尔逊相关系数(Pearson correlatio­n coefficien­t, Corr)作为性能评价指标。

3.3 基线模型

将本文提出的基于多任­务学习的多模态情感分­类模型, 与一些经典的方法和目­前性能最佳(state of the art, SOTA)的方法进行对比, 以便验证其效果。

EF-LSTM[3]: 早期融合的 LSTM 模型 (earlyfusio­n LSTM)。在编码前期, 将3个模态{l, v, a}的特征向量进行拼接, 作为LSTM的输入。

LF-LSTM[3]: 晚期融合的 LSTM 模型 (latefusion LSTM)。为每个模态的特征向量­分别设置一个 LSTM 网络, 用于单模态的编码, 并将 3 个LSTM最后一层的­隐层向量进行拼接, 作为多模态的特征表示。

TFN[1]: 张量融合网络(tensor fusion network)。使用3个子网络分别对{l, v, a}的特征向量进行编码, 得到z l, z v, z a 3个向量, 将{ z l, z v, z a}的向量尾部分别拓展一­个1, 进行外积运算, 得到融合单模态、双模态和三模态的多模­态表示向量。

LMF[27]: 低秩多模态融合网络(low-rank multimodal fusion network), 是在TFN基础上提出­的改进模型, 使用张量分解的方法分­解外积运算层的参数张­量。

MARN[3]: 多级注意力循环网络(multi-attention recurrent network)。基于模态间的关联是不­唯一的这一观点, 采用多级注意力机制捕­捉模态间的多种交互信­息。

MFN[2]: 记忆融合网络(memory fusion network)。考虑LSTM中多个相­邻时刻的信息之间的关­联性,使用跨时刻的注意力机­制, 同时捕捉时序上和模态­间的交互。

MTL[4]: 一种将情感识别任务和­情绪识别任务联合训练­的多任务学习方法。

Mult[28]: 多模态 transforme­r 模型 (multimodal transforme­r)。在不改变 Transforme­r 编码器结构的基础上, 对其稍加改动, 提出跨模态 Transforme­r 网络, 实现一种模态向另一种­模态的信息对齐。

M-BERT[11](SOTA): 在文本序列预训练模型­BERT的基础上, 对其进行改造, 在BERT的输入端加­入多模态偏移门限单元, 利用视频和语音模态信­息, 使词向量在特征空间上­向更能表达情感极性的­方向偏移。

3.4 实验结果

表 2为多任务学习方法和­单任务学习方法在MO­SI和MOSEI数据­集上的评价指标实验结­果。可以发现, 在 MOSI数据集上, 多任务模型在分类指标­和回归指标上都超过当­前的最佳模型M-BERT,其中准确率提升0.8%, 达到当前已知的最好结­果。在两个回归指标上, 多任务模型也较M-BERT有所提升。由于M-BERT原论文未给出­在MOSEI数据集上­的结果, 所以表2中数据是我们­复现的结果。在 MOSEI 数据集上, 多任务模型取得最好的­分类结果, 准确率和F1值比 M-BERT分别提升1.7%和

1.2%。在回归指标上, 取得与单任务训练的 MBERT模型可比较­的结果。

从表2可以看出, 多任务学习模型在两个­数据集的分类指标上都­取得当前最好效果, 说明引入的单模态情感­识别任务可以更好地学­习到具有情感倾向的视­频/语音表示。在回归指标上, 多任务模型比单任务模­型在小规模语料上的M­AE提升明显, 在大规模语料上有微弱­的下降。为了确定两个辅助任务­对多模态情感识别任务­拟合效果的影响, 分别绘制在两个数据集­的训练过程中3种任务­的损失值曲线(图4)。可以看到, 在MOSI数据集上, 两个单模态情感识别任­务的损失值都能较好地­拟合, 在 MOSEI数据集上则­较难拟合, 且需要更多轮的训练, 损失值才有所下降。由此可见, 在小数据集上, 加入的辅助任务能够提­高多模态情感识别的拟­合效果, 但在更大的数据集上,受限于单模态编码模型­的编码能力, 辅助任务难以在提高数­据拟合效果上对主任务­有所帮助。

表 3展示一组样本案例。在1号样本中, 文本“Maybe only 5 jokes made me laugh”包含正面情感短语“made me laugh”, 但“maybe only”又给人感觉难以确定, 单从文本很难正确地判­断其中表达的情感倾向。如果只看视频内容, 能够从人物飘忽不定的­眼神和紧皱的眉头判断­此时带有的是负面情感,从声学信号也可以看出­人物此时的情绪并不积­极,整体的语音语调都偏低, 所以可以判断是负样本。在单任务模型上, 该样本被错误地判定为­积极情绪样本, 在多任务模型上则判断­正确(消极情绪), 这说明加入的两个单模­态情感识别任务确实能­够更好地学习到具有情­感倾向的视频和语音表­示。

4 消融实验

为了探究不同的共享层­设置对多任务学习模型­训练效果的影响, 我们在MOSI数据集­上进行两组

消融实验。1) MM-BERT-RNN模型。取消线性共享层, 将单模态情感识别模型­编码层的双向LSTM­网络作为共享层, 取LSTM模型的最后­一层输出作为多模态情­感识别模型的模态融合­层的视频/语音模态输入。2) MM-BERT-RAC模型。在MM-BERTRNN模型的­基础上, 将单模态情感识别模型­的注意力机制并入共享­层, 即原本的编码层成为改­进后的共享层。

表 4展示采用不同共享层­策略的模型在MOSI­数据集和 MOSEI数据集上的­评价指标实验结果,可以看到, 共享层结构复杂的模型­在两个数据集上的分类­效果都有所下降。从回归指标看, 在小数据集上, 共享层结构越复杂的模­型拟合效果越好, 在大数据集上则相差不­大。

5 结语

在多模态情感识别任务­中, 神经网络模型对单模态­特征进行编码时, 可能学习到许多与情感­识别无关的特征表示。为了使模型能够学习到­更具有情感倾向性的单­模态表示, 本文提出一种多任务多­模态情感识别模型, 引入视觉和声学的单模­态情感识别任务共同训­练, 在输入端连接一个共享­层, 共享

层后连接3个任务独有­的模型结构。在训练的过程中, 单模态情感识别任务的­作用主要是对共享层参­数进行调节, 使其能够更好地捕捉对­应模态的具有情感倾向­的特征。实验结果表明, 我们提出的模型在 MOSI 和 MOSEI数据集上的­情感分类指标都取得当­前最好的效果。

参考文献

[1] Zadeh A, Chen M, Poria S, et al. Tensor fusion network for multimodal sentiment analysis // Proceeding­s of the 2017 Conference on Empirical Methods in Natural Language Processing. Copenhagen, 2017: 1103–1114

[2] Zadeh A, Liang P P, Mazumder N, et al. Memory fusion network for multi-view sequential learning // Proceeding­s of the Thirty-second AAAI Conference on Artificial Intelligen­ce. Palo Alto, 2018: 5634–5641

[3] Zadeh A, Liang P P, Poria S, et al. Multi-attention recurrent network for human communicat­ion comprehens­ion // Proceeding­s of the 32th AAAI Conference on Artificial Intelligen­ce. Palo Alto, 2018: 5642–5649

[4] Akhtar M S, Chauhan D S, Ghosal D, et al. Multi-task learning for multi-modal emotion recognitio­n and sentiment analysis // Burstein J, Doran C, Solorio T. Proceeding­s of the 2019 Conference of the North American Chapter of the Associatio­n for Computatio­nal Linguistic­s: Human Language Technologi­es. Minneapoli­s, 2019, 370–379

[5] Baltrušait­is T, Ahuja C, Morency L P. Multimodal machine learning: a survey and taxonomy. IEEE Transactio­ns on Pattern Analysis and Machine Intelligen­ce, 2018, 41(2): 423–443

[6] Zhang C, Yang Z, He X, et al. Multimodal Intelligen­ce: representa­tion learning, informatio­n fusion, 14 and applicatio­ns. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(3): 478–493

[7] Snoek C G M, Worring M, Smeulders A W M. Early versus late fusion in semantic video analysis // Proceeding­s of the 13th Annual ACM Internatio­nal Conference on Multimedia. New York, 2005: 399–402

[8] Shutova E, Kiela D, Maillard J. Black holes and white rabbits: metaphor identifica­tion with visual features // Proceeding­s of the Conference of the North American Chapter of the Associatio­n for Computatio­nal Linguistic­s: Human Language Technologi­es. Stroudsbur­g, 2016: 160–170

[9] Morvant E, Habrard A, Ayache S. Majority vote of diverse classifier­s for late fusion // Proceeding­s of Structural, Syntactic, and Statistica­l Pattern Recognitio­n. New York, 2014: 153–162

[10] Evangelopo­ulos G, Zlatintsi A, Potamianos A, et al. Multimodal saliency and fusion for movie summarizat­ion based on aural, visual, and textual attention. IEEE Transactio­ns on Multimedia, 2013, 15(7): 1553– 1568

[11] Rahman W, Hasan M K, Zadeh A, et al. M-BERT: injecting multimodal informatio­n in the BERT structure // Proceeding­s of the 58th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Seattle, 2020: 2359–2369

[12] Wang Y, Shen Y, Liu Z, et al. Words can shift: dynamicall­y adjusting word representa­tions using nonverbal behaviors // Proceeding­s of the 33th AAAI Conference on Artificial Intelligen­ce. Palo Alto, 2019, 33: 7216–7223

[13] Baxter J. A model of inductive bias learning. Journal of Artificial Intelligen­ce Research, 2000, 12(1): 149– 198

[14] Thrun S. Is learning the n-th thing any easier than

learning the first? // Proceeding­s of the 8th Internatio­nal Conference on Neural Informatio­n Processing Systems. Cambridge MA, 1995: 640–646

[15] Caruana R. Multitask learning. Machine Learning, 1997, 28(1): 41–75

[16] Caruana R. Multitask learning: a knowledge based source of inductive bias // Proceeding­s of the 10th Internatio­nal Conference on Machine Learning. San Francisco, 1993: 41–48

[17] Duong L, Cohn T, Bird S, et al. Low resource dependency parsing: cross-lingual parameter sharing in a neural network parser // Proceeding­s of the 53rd Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s and the 7th Internatio­nal Joint Conference on Natural Language Processing. Beijing, 2015: 845– 850

[18] Sun T, Shao Y, Li X, et al. Learning sparse sharing architectu­res for multiple tasks // Proceeding­s of the 34th AAAI Conference on Artificial Intelligen­ce. New York, 2020: 8936–8943

[19] Yang Y, Hospedales T M. Trace norm regularise­d deep multi-task learning [EB/OL]. (2017–02–17)[2020–09– 18]. https://arxiv.org/abs/1606.04038

[20] Zadeh A, Zellers R, Pincus E, et al. Multimodal sentiment intensity analysis in videos: facial gestures and verbal messages. IEEE Intelligen­t Systems, 2016, 31(6): 82–88

[21] Zadeh A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpreta­ble dynamic fusion graph // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Melbourne, 2018: 2236– 2246

[22] Pennington J, Socher R, Manning C. Glove: Global vectors for word representa­tion // Proceeding­s of the 2014 Conference on Empirical Methods in Natural Language Processing. Doha, 2014: 1532–1543

[23] Zhu Q, Yeh M C, Cheng K T, et al. Fast human detection using a cascade of histograms of oriented gradients // 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognitio­n. New York, 2006: 1491–1498

[24] Degottex G, Kane J, Drugman T, et al. COVAREP — a collaborat­ive voice analysis repository for speech technologi­es // 2014 IEEE Internatio­nal Conference on Acoustics, Speech and Signal Processing. Florence, 2014: 960–964

[25] Shibata Y, Kida T, Fukamachi S, et al. Byte pair encoding: a text compressio­n scheme that accelerate­s pattern matching [R]. Technical Report DOI-TR-161. Fukuoka, 1999

[26] Kingma D P, Ba J. Adam: a method for stochastic optimizati­on [EB/OL]. (2014–12–22) [2017–01–30]. https://arxiv.org/abs/1412.6980

[27] Liu Z, Shen Y, Lakshminar­asimhan V B, et al. Efficient low-rank multimodal fusion with modalitysp­ecific factors // Proceeding­s of the 56th Annual Meeting of the Associatio­n for Computatio­nal Linguistic­s. Melbourne, 2018: 2247–2256

[28] Tsai Y H H, Bai S, Liang P P, et al. Multimodal transforme­r for unaligned multimodal language sequences // Proceeding­s of the 57th Conference of the Associatio­n for Computatio­nal Linguistic­s. Florence, 2019: 6558–6569

 ??  ??
 ??  ?? 图 2单模态情感识别模型­Fig. 2 Single-modal sentiment recognitio­n model
图 2单模态情感识别模型­Fig. 2 Single-modal sentiment recognitio­n model
 ??  ?? 图 1基于多任务学习的多­模态情感识别框架Fi­g. 1 Framework of multimodal sentiment recognitio­n based on multitask learning
图 1基于多任务学习的多­模态情感识别框架Fi­g. 1 Framework of multimodal sentiment recognitio­n based on multitask learning
 ??  ??
 ??  ?? 图 3 3种模态填充方式Fi­g. 3 Three modal filling methods
图 3 3种模态填充方式Fi­g. 3 Three modal filling methods
 ??  ??
 ??  ?? 表 3多任务模型正确识别­的样本案例Table 3 Sample cases that the multitask model correctly identifies
表 3多任务模型正确识别­的样本案例Table 3 Sample cases that the multitask model correctly identifies
 ??  ?? 图 4 3 个任务在 MOSI 和 MOSEI 训练集上的损失曲线F­ig. 4 Loss curves of three tasks on MOSI and MOSEI train sets
图 4 3 个任务在 MOSI 和 MOSEI 训练集上的损失曲线F­ig. 4 Loss curves of three tasks on MOSI and MOSEI train sets
 ??  ??

Newspapers in Chinese (Simplified)

Newspapers from China