该论文发表于Information Fusion(中科院一区,IF=14.8),题目为《Multi-view domain-adaptive representation learning for EEG-based emotion recognition》。
天津师范大学计算机与信息工程学院的李超副教授为本论文的第一作者,天津师范大学计算机与信息工程学院的赵子平教授为本论文的通讯作者。
https://www.sciencedirect.com/science/article/pii/S1566253523004724
目前的研究表明,脑电图情绪识别存在一定的局限性,包括冗余和无意义的时间框架和通道,以及来自不同受试者的脑电图信号的个体内差异。为了解决这些限制,提出了一种基于交叉注意力的带域判别器的扩张因果卷积神经网络(CADD-DCCNN),用于基于多视图EEG的情绪识别,以最大限度地减少个体差异并自动学习更多判别性情绪相关特征。首先,使用短时傅里叶变换(STFT)从原始EEG信号中获得差分熵(DE)特征。其次,将DE特征的每个通道视为一个视图,并在不同的视图中利用注意力机制来聚合脑电时间框架水平上的判别性情感信息。然后,采用扩张的因果卷积神经网络来提取不同时间框架之间的非线性关系。接下来,采用特征级融合,融合多通道特征,旨在探索不同视图之间潜在的互补信息,增强特征的表示能力。最后,为了最小化个体差异,采用域鉴别器来生成域不变特征,将来自两个不同域的数据投影到相同的数据表示空间中。在两个公共数据集SEED和DEAP上的实验结果表明,CADD-DCCNN方法优于SOTA方法,为跨被试/跨会话EEG情感识别提供高效解决方案。
在基于脑电图的情绪识别方面,近年来许多研究人员取得了重大进展。然而,基于EEG的情感识别仍面临两大核心挑战:个体差异问题与时空特征的有效提取。首先,不同被试因脑结构、生理状态差异,其EEG信号分布存在显著偏移;同一被试不同会话的数据也因环境、情绪波动而产生分布差异。传统方法依赖被试专属模型,需大量标注数据,实际应用受限。现有域适应方法(如MEERNet、TDANN)虽尝试缓解跨域问题,但多忽视通道间关联与长时序依赖,导致关键信息丢失。其次,EEG信号具有高维度(多通道、多时间帧)和低信噪比特性,传统手工特征(如微分熵)或单一深度学习模型(CNN、LSTM)难以有效筛选关键时空信息:冗余时间帧和无关通道干扰模型性能,而局部与全局时序关系的割裂进一步削弱特征区分性。
针对上述问题,本文提出一种融合多视图学习与域自适应的新型框架CADD-DCCNN,如图1所示。CADD-DCCNN由五个部分组成,分别是:输入特征表示模块、多视图跨注意力机制模块(MvCA)、扩张因果卷积神经网络(DCCNN)、域鉴别器(Domain Discriminator)和标签分类器,分别对应图1中的a、b、d、e、f。其中,多视图跨注意力机制模块又可细分为多视图时间帧注意力(MvTFA)、和多视图注意力(MvA)。该方法的核心在于多视图跨注意力机制(MoCA)与对抗域适应(Adversarial Domain Adaptation)的协同设计,分别解决个体差异与时空特征选择两大核心挑战,其本质在于动态筛选关键特征并对齐跨域分布,从而实现高效、泛化的情感表征学习。
图 1 模型框架
1、输入特征表示模块
由于DE特征在基于多视图脑电图的情绪识别中表现出显着的性能,因此使用从多视图脑电图信号中获得的DE特征作为输入。在本文中,使用SEED和DEAP数据集作为实验数据集。在数据集中,每位被试都有多次试验。对于每次试验,使用STFT从每个通道的五个不同频带中提取DE特征,其非重叠的Hanning窗口为1秒。对于SEED和DEAP数据集,1秒窗口的DE特征大小分别为(62,5)和(32,5)。接着将所有窗口的DE连接到一个代表一个Trial的特征向量中,作为下一个模块的输入。
2、多视图跨注意力机制模块(MvCA)
文章模型中的MvCA模块包括两个模块:多视图时间框架注意力(MvTFA)和多视图注意力(MvA)。在文章中,将每个通道看做一个视图,在每个视图中都使用了一种注意力机制来计算时间维度上的注意力权重。最后,我们在多个视图中采用类似的注意力机制来动态学习每个视图的权重,然后将它们与原始信号相结合,以使用多视图学习为EEG试验构建新的向量表示。
在多视图时间帧注意力MvTFA(见图2)中,首先将输入EEG信号(每个通道视为一个视图)通过线性变换生成查询(Q)、键(K)、值(V)三个矩阵,实现将S转化为三个不同的特征域:
其中S为输入序列(时间帧×特征维度),,,为可学习权重矩阵, 分别表示查询空间、键空间和值空间。
图 2 多视图时间帧注意力架构
接着,生成单个视图的时间框架注意力,由下面描述的两个方程计算获得:
其中记录了从前一个时间步k到当前时间步q的特征的注意力。为确保Hq,k仅在k ≤ q时适用,当m < n时,通过将设置为零,将H更新为H′。因此,H′可以直接吸引长期和短期过去值的注意力。通过对注意力进行归一化,得到了注意力矩阵,并与值矩阵V计算注意力:
最终输出:
MvA的输入是C视图中时间步t的特征序列,表示为=(, , ... , )。使用与MvTFA模块中用于计算α类似的过程,计算标准化的视图注意力。然后,将视图注意力应用于,并将输出表示为。最后,再次与Y合并,相加获得隐藏状态Z。
通过对MvCA的特征进行1 × 1 × 1的卷积,来压缩频段方向的维度并减少后续计算量。
3、扩张因果卷积神经网络(DCCNN)
DCCNN是由扩张卷积和因果卷积相结合形成的,如图3所示。因果卷积确保时序建模的因果性,即当前时刻输出仅依赖历史输入,避免未来信息泄漏。扩张卷积扩大了感受野,当膨胀因子为1时,扩张卷积等效于标准卷积神经网络。
图 3 DCCNN
其中其内核大小k为3,三个扩张层的膨胀因子d分别为1、2和4。
对于输入序列h(s),扩张卷积输出p(s)计算为:
其中,为卷积核权重,d为扩张因子,k为核大小。简单来说,扩张卷积在不增加参数数量的情况下,通过在不同的层设置不同的膨胀因子来合并不同大小的局部信息。可以进一步提取特征,同时减少后续计算的参数数量,从而提高计算速度。
4、域鉴别器(DD)
通过对抗训练,特征提取器被训练以生成混淆域鉴别器的特征,域鉴别器被训练以区分特征来自源域还是目标域,从而迫使特征提取器对齐分布。使用平均池化来融合来自多视图特征的深度表示,并将输入转换为向量dm。引入梯度反转层(GRL),公式为:
最后使用softmax函数推断来自源域或目标域输入的概率:
5、标签分类器
先使用平均池化来融合多视图特征,然后使用三个FC层和一个softmax函数进行情绪预测,函数为:
其中,和是可学习的权重矩阵和偏置向量。
在论文中,使用了SEED数据集和DEAP数据集作为验证数据集。
1、SEED数据集
在SEED数据集分别进行了跨被试(SI)实验和跨会话(SD)实验,并与其他方法比较,实验结果见图4。可以看到,本文的CADD-DCCNN在SI任务上,达到92.44%的平均准确率,显著优于现有方法(如MEERNet的87.10%、MS-MDA的89.63%),表明其跨被试泛化能力突出。而在跨会话场景中取得87.41%的准确率,验证了对同一被试不同时间数据的鲁棒性。
图 4 SEED数据集的实验数据结果
2、DEAP数据集
在DEAP数据集上,进行了效价分类的跨被试和跨会话实验,实验结果如图5所示。在跨会话实验中,与其他非域自适应方法相比,唤醒度的平均精度达到了92.42%,优于其他方法,而效价的平均精度也处于较高水平,仅次于sparseD。而在跨被试场景中,效价和唤醒度的平均精度分别为69.45%和70.50%,尽管模型性能在SI场景远低于SD场景,但仍优于同在SI场景下的其他模型。这些结果表明,文章提出的CADD-DCCNN方法在最小化个体内和个体内差异方面具有优势。
图 5 DEAP数据集上的实验数据结果
3、消融实验
文章在DEAP和SEED数据集上进行消融实验,从而验证各个模块对于模型提升的效果,实验结果如图6所示。图中表格从上到下的模型分别表示:DANN:移除了多视图交叉注意机制模块和DCCNN的DANN模型;DCCNN-DANN:只有 DCCNN的DANN模型;TFA-DANN:只有时间框架注意力机制的DANN模型;MvCA-DANN:仅具有多视图交叉注意机制的DANN模型。从实验结果可以得到,完整模型达到了最优结果,与DANN模型相比,准确率提升了2.5%,MvCA-DANN的准确率比TFA-DANN高1.86%,表明多个通道之间的信息是互补的。学习多渠道之间的互补信息可以有效提高模型的性能,进一步验证多视图学习的有效性。
图 6 消融实验结果
本文提出了一种基于脑电信号的情绪识别方法CADD-DCCNN,在SEED和DEAP两大基准数据集上取得了最先进(SOTA)的性能。该方法的成功主要源于以下创新设计:首先,通过多视角学习与注意力机制的结合,实现了对情绪相关通道和时间帧的有效筛选;其次,利用扩张因果卷积神经网络从多视角特征中提取时序信息;此外,对多视角特征进行特征级融合,充分挖掘不同视角间的互补性信息。为进一步提升跨被试场景下的模型泛化能力,模型引入领域判别器,通过统一特征分布覆盖和保持数据表征不变性,有效缓解数据分布偏移问题。实验通过消融研究验证了各模块的独立贡献,结果证明了其有效性。未来工作将重点验证该方法在真实世界自然场景中的适用性。
撰稿人:邓杰超
审稿人:游琪