该论文发表于IEEE Transactions on Neural Networks and Learning Systems(中科院1区,IF=9.6),题目为《Hybrid Network Using Dynamic Graph Convolution and Temporal Self-Attention for EEG-Based Emotion Recognition》。
大连理工大学计算机科学与技术学院的程成博士为此论文的第一作者,大连理工大学计算机科学与技术学院冯林教授为此论文的通讯作者。
论文链接:https://ieeexplore.ieee.org/abstract/document/10285039
脑电图(EEG)信号因其空间拓扑和时间依赖特性,已成为情感识别的有效解码目标,吸引了众多研究者的关注。然而,现有研究往往只关注EEG信号的空间或时间特征,忽视了两者的联合考虑。为此,本文提出了一种混合网络,包含动态图卷积(DGC)模块和时间自注意力表示(TSAR)模块,能够同时将空间拓扑和时间上下文信息融入EEG情感识别任务中。具体而言,DGC模块通过在模型训练过程中动态更新邻接矩阵来捕捉大脑内的空间功能关系;TSAR模块则用于强调更有价值的时间段,并从EEG信号中提取全局时间特征。此外,为了充分利用空间和时间信息之间的交互性,本文还引入了层次交叉注意力融合(H-CAF)模块,以融合空间和时间特征的互补信息。在DEAP、SEED和SEED-IV数据集上的大量实验结果表明,所提出的方法优于其他最先进的方法。
研究背景
情感是人类日常生活和人际交往中的重要组成部分,随着社交媒体数据的爆发式增长,开发自动情感识别系统对于提高情感理解的准确性和效率变得至关重要。EEG信号作为一种典型的生物电信号,因其能够记录与情绪密切相关的大脑活动,已成为情感识别的重要研究对象。然而,EEG信号具有复杂的空间拓扑结构和时间依赖性,这使得同时提取其空间和时间特征成为一项挑战。传统方法主要依赖于手动提取浅层特征,但这些方法需要丰富的先验知识且难以处理大规模数据。近年来,深度学习方法,尤其是卷积神经网络(CNN)和图卷积网络(GCN),被广泛应用于EEG信号的空间特征提取,显著提升了情感识别的性能。然而,许多现有研究仅关注EEG信号的空间或时间特征,而忽略了两者的联合考虑。因此,如何设计一个能够同时有效表达和整合EEG信号空间和时间特征的模型,已成为EEG情感识别领域的一个重要挑战。
方法与结果分析
本文提出了一种基于动态图卷积(Dynamic Graph Convolution, DGC)和时间自注意力表示(Temporal Self-Attention Representation, TSAR)的混合网络(Hybrid Network, HN-DGTS),用于基于EEG的情感识别。该方法的核心在于同时提取EEG信号的空间和时间特征,并通过层次交叉注意力融合(Hierarchical Cross-Attention Fusion, H-CAF)模块进行特征融合,以提高情感识别的准确性。
1. 特征构建
设每个样本的EEG信号为S = { (Xi , Yi),i = 1,2,..,N },其中Xi∈RC × T × F为一个三维矩阵,表示经过C通道、T个时间采样点、F个频段预处理后的EEG样本的第i个试次。N表示EEG试验的总次数。在整个框架中,将提取的DE特征图作为HN - DGTS模型的输入,大小表示为[N,C,D,F]。D表示从Xi中提取DE后得到的特征维数。随后,我们将每个频段作为模型的输入,记为X f∈RN × C × D。
1.1 动态图卷积(DGC)模块
由于大脑的结构和功能连接对于探索电极的相对空间结构和解码EEG信号所诱发的响应具有重要意义,因此预处理后的EEG信号最初被划分为若干个不重叠的时间片段,每个时间片段的持续时间为t s。随后,提取DE特征来构建每个时间窗口的功能脑网络。
A. 构建邻接矩阵
该网络选择PCC来模拟脑功能连接矩阵。对于每个频段的一个样本可以得到邻接矩阵,将每个频段的所有EEG样本计算得到的邻接矩阵进行组合,生成对称连接矩阵Af∈RN×C×C。为了增强脑图的泛化能力,Af被用来进一步计算拉普拉斯矩阵L。
在大脑图的基础上,论文中提出了一种新的方法来强调相邻节点之间的关系,称为自注意力机制。该机制为图中的所有边分配权重,使得模型能够有效地处理来自不同表示子空间的信息,并以端到端的方式进行学习。该公式可表示为如下形式:
式中:WQ和WK为线性投影参数,将输入Xf投影到d维的输出,√d为缩放因子。A′中的每一个aij表示从通道i到通道j的归一化权重。由此,我们得到与不同脑电电极采集到的特征相关的注意力矩阵。
由于式中的A′涉及自注意力获取的节点权重关系,为了进一步提高EEG信号的表征能力,将A′应用于Laplacian矩阵L。其过程可以表示为
B.图卷积操作
给定一个拉普拉斯矩阵L (和特征矩阵Xf),在DGC模块中,DGC作用于每个脑图的节点以捕获空间特征,然后通过堆栈构建多个卷积层。在M层DGC中,第m层的图卷积操作可以定义为
1.2 时间自注意力表示(TSAR)模块
EEG信号的不同时间段相互关联,每个时间段对情绪识别任务的贡献不同。为了注意到更有价值的时间片段信息,需要感知EEG信号的全局时间依赖关系,并通过自注意力机制为更有用的时间片段分配更高的分数。
具体来说,EEG信号表示为X f∈RN × C × D。为了捕获时间依赖关系,应用变换操作来获得潜在的时间特征,从而得到X’f∈RN × D × C。随后,这些特征X’f经过线性变换后被用作查询( qt )、密钥( kt )和值( vt )。然后通过带键的点积处理查询,接着通过softmax层生成每个值的代表性得分。全通道典型得分矩阵的计算过程描述如下:
给定所有通道的典型得分矩阵Att,将每个值与可用信息进行聚合以更新自身。为了解决梯度消失问题,加入了残差连接。此外,将自注意力与包含两个全连接层和ReLU激活函数层的前馈网络( FFN )相结合。这种结合允许进一步提取时序特征,增强了模型的非线性学习能力。最终得到的时序特征Xt,其大小与输入相同,形状为[N,D,C]。过程定义如下:
1.3 层次交叉注意力融合(H-CAF)模块
通过上述步骤,我们得到了空间特征Xs和时间特征Xt。H - CAF旨在利用不同模态特征之间的互补信息,使我们能够提取更具代表性的特征,并将其跨层充分融合,以增强预测能力。通过该模块的学习权重,每个模态的注意力权重由另一个模态引导,有效地利用了时空特征的互补性。如图中红色虚线框所示,两个CAF形成了一层H - CAF。CAFs采用全交叉注意力结构代替自注意力层,具体可定义如下:
其中Q是CAF的q输入,K和V分别是CAF的k和v输入,其中K和V相同。
在H - CAF模块中,其中一个CAF接收来自一个分支的特征作为输入,并使用来自另一个分支的特征作为键和值。相反,另一个CAF将上一个CAF收到的输入作为key和value,而将上一个CAF的key和value作为当前的输入。两个CAFs构成一层H - CAF,其具体形式如下:
其中l = ( 1 , 2 , ... , L)表示H - CAF模块的层数,l - 1表示前一层,l表示当前层。这种层次化的方法使得H - CAF能够充分利用每一层不同分支的互补信息来构建情感相关的时空特征Xst∈RN × C × D。
A. 后向更新邻接矩阵
在提出的模型中,使用交叉熵损失函数来衡量真实标签Yi和预测标签Y ( i之间的差异,并通过后向传播来更新邻接矩阵。更新过程可以描述如下:
其中θ为训练过程中模型中的所有参数,∥·∥表示防止过拟合的正则化项,μ为常数。
然后,该模型可以更新邻接矩阵A如下:
实验结果
本文通过在三个公开的EEG情感识别数据集(DEAP、SEED和SEED-IV)上进行实验,验证了所提出的混合网络(HN-DGTS)模型的有效性。
1. 消融实验
通过消融实验验证了所提出的混合网络(HN-DGTS)模型中各个模块的贡献。
DGC模块:单独使用DGC模块时,分类准确率较低,表明仅依靠空间特征难以有效识别情感。
TSAR模块:单独使用TSAR模块时,分类准确率高于DGC模块,但低于完整的HN-DGTS模型,表明时间特征对情感识别有重要贡献。
HN-DGTS模型:结合DGC和TSAR模块,并通过H-CAF模块进行特征融合,模型的分类准确率显著提高,证明了空间和时间特征的联合提取和融合对情感识别的重要性。
图1 三个数据集中不同配置设置的平均准确率
DEAP - A表示DEAP中的唤醒维度。DEAP - V表示DEAP中的效价维度,( a ) DEAP-A,( b ) DEAP-V,( c ) SEED,( d ) SEED - IV。
2. 实验结果与分析
DEAP数据集:在唤醒度维度上,β频段的分类准确率最高,达到89.44%;在效价维度上,γ频段的分类准确率最高,达到89.98%。总体来看,效价维度的分类准确率高于唤醒度维度,这与先前的研究结果一致,表明效价对情感刺激更为敏感。
SEED数据集:在θ频段上,HN-DGTS模型的平均分类准确率达到97.53%;模型在积极和中性情感的分类上表现优异,准确率分别为96.67%和92.68%。
SEED-IV数据集:在θ频段上,HN-DGTS模型的平均分类准确率达到98.97%。模型在中性和悲伤情感的分类上表现最佳,准确率分别为95.24%和98.48%。
表1 在三个数据集的六个频段上的平均分类精度
3. 混淆矩阵可视化
作者通过混淆矩阵对模型在不同数据集上的分类性能进行了可视化分析。混淆矩阵是一种用于评估分类模型性能的表格,其中每一行代表实际类别,每一列代表预测类别。混淆矩阵可以直观地展示模型对每个类别的分类准确性和混淆情况。
通过混淆矩阵的可视化,可以直观地评估模型在不同情感类别上的分类性能。本文提出的HN-DGTS模型在DEAP、SEED和SEED-IV数据集上均表现出色,尤其是在识别低唤醒度、低效价、积极、中性和悲伤情感时。这些结果进一步验证了模型在EEG情感识别任务中的有效性和鲁棒性。
图 2 HN - DGTS的混淆矩阵
( a ) DEAP数据集的唤醒度混淆矩阵。( b ) DEAP数据集效价维度上的混淆矩阵。( c ) SEED数据集上的混淆矩阵。( d ) SEED - IV数据集上的混淆矩阵。
4. 与现有方法的比较
本文提出的HN-DGTS模型在DEAP、SEED和SEED-IV数据集上的表现均优于现有的先进方法。这些结果验证了HN-DGTS模型在基于EEG的情感识别任务中的优越性能,特别是在提取和融合空间与时间特征方面的能力。
表2 与最新的相关研究结果进行比较
结论
本文提出了一种混合网络(HN-DGTS)模型,用于基于脑电图(EEG)的情感识别。该模型结合了动态图卷积(DGC)模块和时间自注意力表示(TSAR)模块,通过层次交叉注意力融合(H-CAF)模块对空间和时间特征进行融合,从而充分利用EEG信号的空间拓扑和时间依赖性。实验结果表明,HN-DGTS模型在DEAP、SEED和SEED-IV数据集上的性能均优于现有的先进方法,证明了其在EEG情感识别任务中的有效性和优越性。
撰稿人:吴旻津
审稿人:邱丽娜