学习报告:HetEmotionNet:用于多模态情绪识别的双流异构图递归神经网络

本篇学习报告介绍一篇于计算机领域顶级会议ACM MM 2021 上发表的论文《HetEmotionNet: Two-Stream Heterogeneous Graph Recurrent Neural Network for Multi-modal Emotion Recognition》,该论文以多模态情感数据的高精度分类为研究目标,提出了一种双流异质图递归神经网络进行多模态情绪数据的分类。尽管现有方法能够达到较高的分类表现,但是如何充分利用多模态生理时间序列的时-频-空域特征互补性、异质性和相关性进行情感识别仍然具有挑战。该论文提出了一种新颖的异质图神经网络HetEmotionNet,在统一的框架下同时建模了多模态数据的特征互补性、相关性和异质性。HetEmotionNet在两个真实世界数据中与现有的SOTA模型相比较实现了最佳的性能。

1. 研究背景和内容

随着情感计算的发展以及研究人员对情感计算的深入研究,基于生理信号的情绪识别在情感计算中起着重要的作用,但现有的工作仍存在下面几个问题:

(1)如何有效的利用时-频-空域信息的互补性。生理信号空间域中的时域信息和频域信息通常具有不同的激活程度。例如,图1显示了不同情绪状态下EEG信号在空间域中时域和频域特征的差异。具体来说,在时空域中,时域信息的激活程度直接反映了大脑的活动。高激活度通常与积极情绪有关,低激活度通常与消极情绪有关。在频空域中,波段的激活度通常在消极情绪中较高,在积极情绪中较低。

图1. 脑电信号在时频空域中的互补性

现有工作大多数仅分别从时空或频空方面提取信号特征并进行分类。而最新的同时考虑时-频-空特征的研究SST-EmotionNet(ACM MM 20),基于通道电极的空间关系采用了网格图的方式来组织通道数据并对空白区域填充了0。图2(a) 示意了该网格图的构造方法。但这样做存在两方面的问题:1.由于事实上没有放置电极的脑部区域仍旧有着电信号。所以填充0会引入噪声。2.物理位置相近的通道间不一定有着数据上的高关联。而图2(b)中图的构造方法可以反应通道间的拓扑关系且不用引入噪声。

(a)将EEG信号组织成2Dmap形式           (b)将EEG信号组织成图的形式

图2. 两种EEG通道的空间表示

(2)如何同时建模多模态数据中的相关性和异质性。多模态生理信号存在异质性和相关性。模态之间的异质性体现在从不同器官收集的各种信号的属性之间的差异。例如在图3中EEG信号和ECG信号在波形和振幅上有很大的差异。相关性包括模态内相关性和跨模态相关性。模态内相关性是同一模态中通道之间的关系,如图2(b)所示的功能连接。跨模态相关性是不同模态的通道之间的关系。例如,当参与者处于恐惧状态时,心电信号反映更大的心率加速,伴随着GSR信号的增加以及右额叶脑电信号的高激活程度。但现有方法仅分别建模了多模态生理信号的相关性或异质性。

图3. 多模态生理信号的异质性

该论文针对以上问题,提出了一种基于多模态生理信号的双流异质图递归神经网络。该模型构造了情绪异质图序列并输入到了双流结构中,同时捕获多模态生理信号的时-频-空三类特征;同时该模型利用了GTN来建模多模态生理信号的异质性,GCN来建模多模态生理信号的相关性,并用GRU来提取多模态生理信号时域和频域间的依赖关系。

该论文的贡献:

(1)构建了多模态生理信号数据的时空和频空图表示。

(2)提出了一种基于图的同时融合生理信号时-频-空信息的双流结构。

(3)同时提取了多模态生理数据的相关性和异质性。

(4)在公开的多模态情绪识别数据集DEAP与MAHNOB-HCI上的实验表明,该模型相较基线方法有着出色的性能。

2. HetEmotionNet模型

模型由结构一致但相互独立的时空流与频空流组成,它们分别用于提取多模态生理信号的时空特征与频空特征,输入分别为构建的时空和频空图序列。每一流都是一个异质图递归神经网络,由图转换网络(Graph Tansformer Network),图卷积神经网络(Graph Convolution Network)和门控循环单元层(Gated Recurrent Units)组合而成。最后,该论文将双流网络提取得到的时-频-空域特征融合并用于情绪分类。如图4所示。

图4. HetEmotionNet进行情绪识别整体流程图

该模型的关键点有以下三个:

(1)设计了一种面向多模态情绪识别的异质时空和频空图表示。

(2)通过整合基于图的时空流和频空流在一个模型中来同时提取和融合多模态生理信号的时频空特征。

(3)采用了GTN来建模多模态生理数据的异质性;GCN来捕获不同通道数据间的相关性。GRU来捕获时域和频域中的依赖关系。

2.1 异质图构造

对于每个样本,模型分别构建了一个异质的时空图序列和一个异质的频空图序列,如图5所示。这些异质图被用来描述多模态信号时域信息和频域信息在空间上的分布。该文主要分成以下三个步骤来构建时空图序列:

(1)先计算一个样本内不同通道间128个时间点数据的互信息值作为边的权重和邻接矩阵。步骤如图5中 ① 所示。

(2)为了构造异质图,分别将每个时间点的所有通道的值作为节点特征并和上一步计算得到的邻接矩阵构成了异质图。步骤如图5中 ② 所示。

(3)最后将128个时间点构建的异质图拼接起来构成了异质时空图序列。步骤如图5中 ③ 所示。

与构建时空图序列类似,该文也构建了频空图序列:

(1)首先对每个通道的值分别在四个频段上计算差分熵(DE)特征,步骤如图5中 ④ 所示。

(2)然后分别将每个频带的所有通道值作为节点特征并和邻接矩阵组成了异质图,步骤如图5中 ⑤ 所示。

(3)最后将四个频带构建的异质图拼接得到异质频空图序列。步骤如图5中 ⑥ 所示。

图5. 异质图序列构造过程

2.2 提出的异质图递归神经网络

由于模型的时空流和频空流有着相同的结构,都是一个异质图递归神经网络,所以以时空流为例介绍该文的异质图递归神经网络结构,如图4所示。异质图递归神经网络由图转换网络(GTN),图神经网络(GCN)和门控循环单元(GRU)构成。三个部分的作用分别如下:

(1)GTN主要通过从异质图中自动提取一些元路径(即不同通道间的关系)来建模多模态数据的异质性。

(2)GCN利用GTN提取得到的元路径进行图卷积。对于相同的节点特征,文中分别为使用不同元路径的结果设置了不同的权重并进行了加权求和以重新构筑提取后的时空图序列。

(3)GRU利用GCN得到的图序列来建模不同时间点。对于提取得到的图序列,文中将每个时间点的图对应的送入GRU层相应的单元并将提取后所有单元的信息拼接起来送入分类器进行分类。

3. 实验和结果与讨论

3.1 多模态数据集描述

该论文在包含多模态生理信号的两个数据集上进行了实验:DEAP和MAHNOB-HCI数据集,它们通过多媒体材料唤起情绪。

DEAP数据集记录由32名参与者在多媒体刺激下产生的数据。每个参与者需要进行40次试验,并在每次试验中观看1分钟的音乐视频。它们的生理信号是他们在观看音乐视频时采集的数据,每次试验的数据包括3秒的试验前信号和60秒的试验信号。该数据集包含32通道的脑电图信号和8通道的外周生理日志信号信号(PPS)。外周生理信号包括EOG、肌电图、GSR、BVP、呼吸和温度。所有参与者将对这些音乐视频,根据效价、唤醒和其他情感维度从1到9进行评分。

MAHNOB-HCI数据集记录了27名参与者在多媒体刺激下生成的数据。每个参与者观看20个视频剪辑,而20次试验的生理数据是记录。这些视频剪辑的长度在34.9秒到117秒之间(平均值为81.4秒,标准差为22.5秒)。该数据集包含32通道的脑电图信号和6通道的PPS。外围的生理信号包括心电图、GSR、呼吸和温度。参与者被要求在效价、唤醒等的情绪维度上从1到9分打分。 

3.2 实验

3.2.1 情绪识别算法比较

该论文在DEAP与MAHNOB-HCI两个多模态情绪识别数据集上进行实验并对模型进行评估,结果如下:

6. DEAP数据集上的性能表现

 

7. MAHNOB-HCI数据集上的性能表现

 

不同数据集的实验结果如图6、7所示HetEmotionNet在两个数据集上均取得了优于所有基线方法的性能。比起以往模型,分类性能提升的原因有以下几点:

(1)不同于现有的方法,HetEmotionNet在基于图的结构下同时捕获了多模态生理信号的时-频-空域特征,并利用了各种特征之间的互补性进行情绪分类。

(2)同时建模了多模态生理信号数据的异质性和相关性并提升了分类表现。

3.2.2 消融实验

为了验证模型和方法的有效性,该论文在关于模型组件上、模态上、以及时频空域上进行了不同的消融实验。

图8. 组件上的消融实验

图9. 模态上的消融实验

图10. 时-频-空域上的消融实验

如图8、9、10所示,通过消融实验,表明该论文方法、模型有效,以及该双流异质图递归神经网络能达到当前实验的最佳性能。

4. 总结与思考

        该论文考虑了不同信号的属性差异,波形和振幅的不同,提出了一种多模态情绪识别模型HetEmotionNet,利用基于图的双流结构同时捕获多模态生理信号的时-频-空三类特征;同时该模型利用了GTN来建模多模态生理信号的异质性,利用GCN来建模多模态生理信号的相关性,并用GRU来提取多模态生理信号时域和频域间的依赖关系。这些做法为多模态特征提取、融合,以及多模态情绪识别研究提供了新思路。

此外,该论文的消融实验也是具有很大的启发性,不仅可以在模型组件上、模态上进行消融实验,而且可以在时空、频空域上进行消融实验。但是,该论文仅在公开的多模态情绪识别数据集DEAP与MANODB-HCI上进行实验,如果能在更多更富有挑战性的多模态情绪数据集,如上海交通大学的SEED-IVSEED-V开展实验,验证模型、方法的准确率和鲁棒性,实验结果将更有说服力。

 

 

论文链接:https://arxiv.org/abs/2108.03354

论文代码:https://github.com/ziyujia?tab=repositories

 

 

稿:黄伟聪

稿:梁艳

 


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: