IEEE JBHI | 基于具有通道选择与可解释性Transformer网络的SEEG情绪识别

该论文发表于IEEE Journal of Biomedical and Health Informatics(中科院二区,IF=6.8),题目为《SEEG Emotion Recognition Based on Transformer Network With Channel Selection and Explainability》。

天津大学杨卓斌博士、司霄鹏副教授和天津市环湖医院金卫篷主任医师为该论文的共同第一作者,天津大学明东教授、司霄鹏副教授、天津市环湖医院尹绍雅主任医师为该论文的共同通讯作者。 

论文链接:https://ieeexplore.ieee.org/document/11068118

研究背景

情绪在决策过程在社会交往中发挥着关键作用。难治性情绪障碍(如重度抑郁障碍)长期以来一直是临床治疗的重大挑战。随着神经科学和人工智能技术的进步,闭环情绪调控脑机接口(BCI)有望为这一问题提供新的解决途径。

脑电图(EEG)作为一种非侵入性信号,具有高时间分辨率和低成本的优势。然而,EEG只能记录头皮表面的信号,且极易受到噪声和运动伪迹的干扰,这使其不适合用于患者状态的长期监测。自20世纪中叶发明以来,立体脑电图(SEEG)已被广泛应用于神经疾病的治疗。与EEG等非侵入性神经影像方法相比,SEEG具有高时间分辨率、高信噪比、更丰富的频段信息、更高的空间分辨率等优势。对于难治性情绪障碍患者而言,SEEG对大脑的侵入性相对较小,所记录的脑信号更加稳定。

基于大脑皮层进行情绪解码的研究在稳步推进,已有许多研究表明,情绪可通过皮层脑活动进行解码。SEEG在脑活动解码任务中同样展现出独特优势,深度学习方法已成为SEEG数据解码中的主要手段,但基于SEEG的情绪信息解码方面的研究却略显不足。

本文贡献

本研究设计了情绪视频范式来诱发三类情绪,并收集了9名癫痫患者的SEEG数据,提出了一种基于空间Transformer的混合网络(为表述方便,后文中简写为STHN)用于情绪识别。实验结果表明,STHN能够有效提取SEEG的全局空间表征,其识别性能优于所有基线模型。同时,STHN具备自动通道选择能力,即使仅使用权重最高的前30%通道,识别精度也几乎不受影响,证明其能够聚焦于对情绪识别最关键的通道信号。进一步分析发现,这些高权重通道主要位于额叶、颞叶和海马等情绪相关脑区,体现了STHN的可解释性,并为理解情绪识别的神经机制提供了有益启示。

SEEG数据采集与预处理

在本研究中,SEEG数据使用BlackRock NeuroPort系统采集,原始采样率为2000 Hz。原始数据通过硬件50 Hz陷波滤波器进行滤波。此外,还收集了每位受试者术前MRI数据和术后CT数据,以确定SEEG电极的位置。

本研究选取6个正性,6个负性以及12个中性情绪视频作为刺激材料,部分材料来源于SEED和SEED-IV数据集,其余材料则选自评分较高的电影片段(豆瓣评分)。

图1情绪诱发实验的流程

整个实验包含三个组块(blocks),每个组块包含8个试次(trial)。每个试次由三个阶段组成:

  • 第一阶段:试次开始时,屏幕显示试次顺序1秒,并显示白色注视标记3秒,以引导受试者集中注意力并准备观看视频。
  • 第二阶段:在屏幕中央呈现情绪视频刺激材料,视频时长为40–250秒,平均约94秒。
  • 第三阶段:自我评估界面,受试者根据前人研究的惯例,对情绪进行三维评估:唤醒度、情绪价和支配感。

每个试次之间设置30秒休息时间,每个组块持续约20分钟。在每个组块中,8个刺激材料包括2个正性视频、2个负性视频和4个中性视频。正性与负性情绪视频与中性视频交替呈现。由于有些患者处于治疗时期,不宜接触情绪价偏低的视频,并非所有受试者完成了三个组块的实验。

对于采集到的原始SEEG信号,首先使用 50 Hz、100 Hz 和 150 Hz 陷波滤波器进行滤波。随后,对原始数据进行了 1–140 Hz 的带通滤波,然后将滤波后的数据下采样至300Hz,并根据触发信号将每个试验的数据进行分段。对于每个试次的数据,进行基线校正,通过减去刺激呈现前3秒数据的均值进行归一化。最终,选取步长为2秒、窗口长度为2秒的滑动窗口,获取输入模型的数据样本。

模型框架

模型整体架构如图2所示,模型由局部时间特征提取器,全局空间特征提取器,高层特征提取器三部分组成,分别对应下图中绿色方框,红色方框,蓝色方框中内容。

图2 模型的整体框架图

1. 局部时间特征提取器:局部时间特征提取器的功能是从每个 SEEG 通道中提取情绪相关的时间信息。该提取器由两个卷积模块组成,每个模块包含一个卷积层、一个批归一化(BN)层、一个 ReLU 激活函数层以及一个平均池化层。如果以 Conv(:) 表示卷积层,以 σ(:) 表示批归一化层、ReLU 激活函数层和平均池化层的计算过程,则该特征提取器可表示为:

X为原始SEEG信号,Xt为经过特征提取器后得到的特征图。

2. 全局空间特征提取器:在输入空间Transformer之前,Xt首先经过一个卷积模块。该模块旨在提取全局时间特征,同时保留通道之间的依赖关系。其结构包括一个卷积层、一个BN层、一个ReLU激活函数层以及在时间维度上的全局平均池化层。该模块的卷积层计算过程记为Conv3(:),其余操作记为γ(:)。此外,还在特征图中加入一个可学习向量xl,用于与每个通道向量计算相关性。同时,添加一个可学习的位置向量Xpos到特征图中,以保留各通道的相对位置信息。上述过程可表示为:

其中,S作为Transformer编码器的输入。

Transformer编码器由两个模块组成:多头自注意力机制(MSA)和前馈神经网络。每个模块都应用了层归一化(LN)和残差连接自注意力(SA)使模型在处理多通道数据时,能够关注不同通道位置上的重要信息。SA可以描述为在查询向量Q、键向量K和值向量V之间计算缩放点积注意力,其公式如下:

其中,Q和K的维度设为dk,而V的维度设为dv。它们对应的映射矩阵分别为

与SA 相比,MSA(多头注意力)提供了并行计算的优势,并且在捕获全局和局部特征差异方面具有更强的能力。MSA的计算过程如下所示:

其中映射矩阵 ,h表示MSA的头数。空间Transformer的完整计算过程如下:

其中S2表示信号通过空间Transformer后得到的特征图。

3. 高层特征提取器:该特征提取器由一个深度卷积层(depth convolution layer)、一个 BN 层、一个 ReLU 激活函数层以及一个全局平均池化(GAP)层组成。输入该模块的特征首先会与空间Transformer中学到的通道注意力权重相乘。这种乘法操作使得模型能够更加关注具有较高权重的通道。随后,该模块利用全局空间卷积提取关键的空间高层信息。该模块的计算过程如下:

其中,C表示输入信号的通道数,通过选取自注意力矩阵第一行中,从第一列到第C+1列数据得到通道注意力权重得到。最后将空间 Transformer 中学到的可学习向量xl重新提取出来,与Xss拼接。随后,三类情绪的概率输出通过一个 MLP 实现。整个分类过程如下所示:

实验设置

本研究中数据集采用留一分段交叉验证进行构建,即将受试者观看每个视频时采集的SEEG 数据按照时间顺序划分为五组,每组数据用作一次测试集,其余四组数据作为训练集。此外,随机选取训练集数据的20%作为验证集。该过程重复五次,以确保每组数据都被用作一次测试集。

图3 数据集划分示意图

本研究中,对于深度学习模型使用 Python 3.10 和 PyTorch 1.12 实现,并在 GeForce RTX 3090 GPU 上运行。对于机器学习模型,结合网格搜索与交叉验证来评估不同参数组合的性能,并选取在验证集上准确率最高的参数组合,在测试集上进行最终测试。

结果分析

九名受试者的SEEG信号基线模型和所提出的STHN模型性能对比如表1所示。总体来看,深度学习算法在情绪识别中的准确率高于机器学习算法。STHN在情绪识别准确率方面优于所有基线模型。此外,STHN在所有受试者上的准确率均超过80%,其中在受试者S8上更是超过90%。同时,STHN的标准差最低,表明其在跨受试者的情绪识别中具有更高的稳定性。

表1 使用不同方法的准确率

表2 使用不同模块模型的准确率

本研究通过消融实验评估了STHN各组件对情绪识别的影响(表2)。完整模型效果最佳;移除Transformer权重共享机制性能下降0.6%,而移除空间Transformer则显著下降12.1%。结果表明,空间Transformer在捕捉SEEG通道间判别性情绪信息方面具有重要作用。

图4 受试者不同电极权重可视化

图4展示了受试者S1的电极植入情况,权重大于0.6的触点显示为红色。“L”代表左侧,“A”代表前侧,“R”代表右侧。可见SEEG通道呈稀疏性,只有少数通道权重较高。为验证高权重通道的有效性,本文以10%为间隔,选取各受试者权重排名前10%至100%的通道作为输入进行实验,并采用Wilcoxon符号秩检验。结果(图5)表明,当通道比例从前10%增至30%时性能显著提升,而超过30%后不再显著增加。进一步验证(图6)显示,除SVM外,其余对比模型在仅使用前30%通道时与使用全部通道相比准确率无显著差异,说明STHN筛选的前30%通道具有代表性与有效性。图5和图6中*代表结果在95%的置信区间下显著。

图5 按权重,选取不同百分比SEEG通道时模型的准确率

图6 不同方法使用权重前30%通道与100%通道对比

不同受试者的SEEG电极植入位置差异显著,这种个体特异性给数据处理与分析带来了挑战。为确保研究结果的普适性,当某一脑区在至少四位受试者中属于前30%高权重通道所在位置时,该脑区才被纳入后续分析。此标准确保了所筛选出的脑区在不同个体中具有较高的出现频率,能够反映稳定的神经活动模式,从而提升研究的可信度。

筛选结果如表3和图7所示。表3列出了筛选出的脑区及其对应的受试者,而图7借助可视化技术直观展示了这些脑区在大脑中的位置。结果表明,当受试者情绪被诱发时,右海马、右额上回、右额中回吻侧部及右颞中回表现出显著的激活。这些脑区在情绪神经活动中具有重要意义。

图7 筛选出的脑区在大脑中对应位置

表三 筛选的脑区及与脑区对应的受试者

总结与展望

本研究提出的STHN模型在SEEG情绪识别任务中表现优异,验证了SEEG在临床情绪解码中的可行性与应用潜力。通过注意力权重分析,模型能够从全部通道中筛选出对情绪识别贡献较大的少量通道,仅使用前30%权重通道即可保持接近使用全部通道的识别精度,体现了其有效的通道选择能力。进一步的可解释性分析发现,STHN自动聚焦于海马、额上回、额中回头端部和颞中回等关键脑区,这些区域与情绪感知、调控密切相关,印证了模型的合理性和科学性。同时,结果也提示情绪解码更依赖右半球脑区,这与“右脑优势”理论一致。尽管如此,本研究仍存在受试者数量有限、SEEG植入脑区覆盖不足以及脑区定位精细度不足等局限,未来需要在更大规模样本和更精细脑区层面开展研究,以进一步提升情绪识别性能和应用价值。

 

撰稿人:陈俊文

审稿人:高炜


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: