IEEE TNNLS | EmT:一种用于广义跨被试EEG情绪识别的新型Transformer模型

该论文发表于IEEE Transactions on Neural Networks and Learning Systems(中科院一区,IF=11.1),题目为《EmT: A Novel Transformer for Generalized Cross-Subject EEG Emotion Recognition》。
南洋理工大学计算机科学与数据科学学院的丁毅博士为此论文的第一作者,关存太教授为此论文通讯作者。
论文链接:https://ieeexplore.ieee.org/document/10960695
论文概要
本文提出了一种新颖的图-Transformer 混合模型(EmT),用于解决跨被试脑电图(EEG)情绪识别中两大核心挑战:个体差异性与情绪状态的连续动态性。传统方法多依赖单一邻接矩阵或忽略长时上下文,难以建模情绪背后复杂的多认知过程与时间演变。EmT 创新性地引入残差多视角金字塔图卷积网络(RMPG)来学习大脑区域间的多模式动态连接,并设计任务自适应的时序上下文 Transformer(TCT)模块——使用多头自注意力+短时聚合层(Short-Time Aggregation) 处理分类任务,使用循环神经网络(RNN)处理回归任务,从而分别建模情绪的短时连续与长时变化特性。实验在四个公开 EEG 数据集(SEED、THU-EP、FACED用于分类,MAHNOB-HCI用于回归)上验证了 EmT 的优越性,其不仅显著超越了现有基线方法,并在统一框架下同时支持跨被试 EEG 情绪分类与回归任务,为构建鲁棒、实用的脑机接口情绪解码系统提供了新思路。
研究背景
情绪识别作为情感计算的关键任务,旨在通过生理信号推断人的内在状态。脑电图因其高时间分辨率,成为揭示情绪神经机制的重要工具。然而, EEG 信号信噪比低、个体差异显著,且情绪本身是涉及多脑区协作的连续动态过程,这使得构建能够跨被试泛化的鲁棒识别模型面临两大核心挑战:一是如何有效建模情绪涉及的多认知过程对应的动态脑功能连接;二是如何准确捕捉情绪短时连续、长时演化的时序特性。
现有深度学习方法多侧重于提取静态或短时空间-频谱模式,未能充分整合上述两方面先验知识。为此,本论文提出了一种基于图神经网络的 Transformer 新模型——情绪 Transformer(Emotion Transformer, EmT),旨在通过模拟大脑多认知网络的动态连接,并结合任务自适应的时序上下文学习机制,来克服上述挑战。该模型创新性地整合了多视图可学习图卷积和金字塔式特征融合,并针对分类与回归任务分别设计了不同的时序混合器,从而实现对情绪时空动态更全面、更鲁棒的建模,提升跨被试情绪识别的泛化性能。
研究方法
本论文提出了一种统一的图-Transformer混合架构 Emotion Transformer(EmT),用于跨被试的EEG情绪分类与回归任务。模型整体结构如图1所示,由四个核心模块顺序构成:时态图构建(TGC)、残差多视图金字塔图卷积网络(RMPG)、时序上下文变换器(TCT) 和任务特定输出(TSO)。

图1 EmT的网络结构
一、时态图构建
首先,将连续的 EEG 信号结构化,构建为可供图神经网络处理的时序图序列。
分段与特征提取:采用两级滑动窗口对 EEG 试次进行切分。先以较长窗口(20秒)获取包含较完整情绪上下文的段,再以短窗口(2-4秒)将每个段细分为多个子段。对每个子段,计算每个EEG通道在7个经典频段(Delta、 Theta、Alpha、Low-Beta、Beta、High-Beta、 Gamma)上的相对功率谱密度,形成节点特征。
图结构初始化:将每个 EEG 通道视为图中的一个节点,节点的属性即为上述频谱特征。图的边(即通道间的连接关系)不预先定义,而是通过后续模块中的可学习邻接矩阵动态生成。最终,一个 EEG 段被表示为一个时序图序列,同时保留了空间拓扑与时间顺序信息。
二、 残差多视图金字塔图卷积网络
为捕捉情绪背后多个认知子系统的协同工作,设计了残差多视图金字塔图卷积网络。该模块摒弃单一固定的大脑连接,采用多个独立可学习的邻接矩阵,以模拟不同认知功能(如注意力、记忆)对应的动态脑区连接模式。同时,通过不同深度的并行 GCN 分支构成特征金字塔,以融合局部与全局的空间关系,并引入残差连接保留原始信息,最终将每个时刻的图压缩为一个表征向量(Token)。
三、 时序上下文变换器
此模块是处理时序动态的核心,为分类和回归任务设计了不同的学习机制。
分类任务:采用 TCT-Class。先通过多头自注意力(MSA)捕获整个序列的全局依赖,定位与整体情绪最相关的片段;随后引入短时聚合层,利用一维卷积对相邻时间步特征进行平滑,以强化情绪的短期连续性,缓解分段标签噪声。
回归任务:采用 TCT-Regr,基于 RNN 的令牌混合器:回归任务要求为序列中每个时间点输出连续值。因此,采用门控循环单元等 RNN 结构替代自注意力,以因果、递归的方式融合历史信息,更符合情绪状态随时间连续变化的建模需求。
四、 任务特定输出模块
根据任务类型,对 Transformer 输出的特征序列进行相应处理以生成最终预测。
分类输出:对 TCT-Class 输出的整个特征序列进行平均池化,聚合所有时间段的信息,再通过一个多层感知机映射到类别标签。
回归输出:将 TCT-Regr 输出的序列中每个时间步的特征独立地通过一个线性层,直接映射为对应时刻的连续情感维度值(如效价),从而输出一个与输入序列同步的预测曲线。
五、 模型变体及其配置
为了研究网络深度的影响并适配不同数据集,论文定义了三个主要变体,其核心区别在于时序上下文 Transformer(TCT)模块的层数(深度)。具体配置如下表1所示:
表1 EmT变体的详细信息

实验结果
本论文在四个公开 EEG 情绪数据集上进行了系统实验,全面评估了 EmT 及其变体在跨被试情绪分类与回归任务上的性能。实验采用严格的留一被试/留多被试交叉验证设置,确保评估的泛化能力。主要结果如下:
1. 情绪分类任务结果
在SEED、THU-EP和FACED三个数据集上进行了二分类(正面vs负面)实验,以准确率(ACC)和F1分数作为评价指标。表2展示了 EmT 变体与多种基线方法的对比结果:
表2 不同方法在SEED、THU-EP和FACED数据集上的跨被试(generalized)情绪分类结果

如表2所示, EmT 变体(尤其是 EmT-B 和 EmT-D )在多数指标上超越了所有基线模型,证明了其架构的有效性。在SEED数据集(62通道)上,最深的 EmT-D 取得了最佳性能(ACC 0.802,F1 0.821),在THU-EP和FACED数据集(32通道,更多被试)上, EmT-B 取得了最高的F1 分数(分别为0.724和0.740)。
2. 情绪回归任务结果
在MAHNOB-HCI数据集上进行连续效价预测,以均方根误差(RMSE)、皮尔逊相关系数(PCC)和一致性相关系数(CCC)作为评价指标。下表3展示了回归任务的对比结果:
表3 不同方法在 MAHNOB-HCI 数据集上的情绪回归结果

在情绪回归任务中,EmT-Regr 系列模型整体表现最优。其中,EmT-Regr(LP+LSTM)在 RMSE 指标上取得最低值(0.063),而 EmT-Regr(LP+GRU)在 PCC(0.490)和 CCC(0.396)指标上达到最高。这一结果证实了其 RNN-based Token Mixer 设计的有效性,使其能更好地建模情绪的连续演变。实验同时揭示任务适配的决定性作用:错误使用分类任务的 MSA 机制时,模型性能(PCC与CCC均显著低于基线)显著下降。这说明,将情绪视为连续变化过程的建模假设,在回归任务中是合理且有效的。
3. 消融实验与分析
如表4所示,论文通过系统的消融实验验证了 EmT 各核心模块的贡献。在 SEED 和 THU-EP 数据集上,在移除关键组件后,模型性能均出现不同程度的下降。
表4 EmT消融实验结果

当以单一 GCN 替代 RMPG 模块时,模型性能下降最为明显(SEED 上 ACC 下降 2.9%,F1 下降 6.1%),说明多视图金字塔图卷积对学习动态脑连接至关重要。
移除 TCT 模块或移除STA(短时聚合)层 均会导致性能明显下降,证实了时序上下文建模及短时平滑对情绪识别的重要性。
论文进一步通过控制变量实验,分析了不同设计选择和超参数的影响。
在分类和回归任务中,对比了相对功率谱密度(rPSD)、微分熵(DE)和功率谱密度(PSD)三种节点特征。结果如图2所示。

图2 特征类型对 EmT 情感分类和回归性能的影响
rPSD 特征在两项任务上综合表现最佳。在分类任务中,rPSD 相比DE和PSD显著提升了ACC和F1分数;在回归任务中,rPSD 也取得了最优的RMSE和CCC。
论文还探究了TCT模块的深度(块数从2到8)对分类和回归任务的影响。结果如图3所示。

图3 TCT块数量对情绪分类和回归性能的影响
分类任务:性能随TCT块数增加而提升, EmT-D (8块)在SEED上取得最佳结果,说明增强时序上下文建模能力有助于提升分类任务性能。
回归任务:回归任务中,TCT 块数对回归性能(RMSE、PCC、CCC)的影响相对较小。这与回归任务选用循环混合器(RNN/GRU)有关,其时序建模方式对深度不敏感,因此在回归任务中,浅层的 EmT-S 即可取得较为稳定的性能。
思考与总结
本文提出的 EmT 模型结合了图神经网络与 Transformer 结构,为跨被试EEG情绪识别提供了一种较为完整的建模方案。通过引入残差多视图金字塔图卷积网络,EmT 能够从多个可学习的脑连接视角中提取情绪相关的空间特征,避免了仅依赖单一固定脑连接所带来的局限性,从而提升了模型在不同被试之间的泛化能力。
在时序建模方面,EmT 根据情绪分类与回归任务的不同特点,分别采用自注意力结合短时聚合机制以及循环神经网络进行建模,使模型能够更好地刻画情绪在时间上的短期连续性和长期变化趋势。这种基于情绪动态特性的结构设计,使模型在多个公开数据集上均取得了优于现有方法的性能。
尽管 EmT 在跨被试情绪识别任务中表现出良好的效果,但仍存在一定的改进空间。例如,模型结构相对复杂,计算开销较大;此外,其所学习到的时序上下文信息仍然缺乏直观解释。未来工作可以进一步探索更轻量化的模型设计,并结合可解释性分析方法,以推动该类模型在实际脑机接口和情感计算场景中的应用。
撰稿人:董帅良
审稿人:黄海云