5373

2022-12-30

本篇学习报告来源：《Plug-and-Play Domain Adaptation for Cross-Subject EEG-based Emotion Recognition》。作者设计了一种仅用少量目标域数据进行微调的域适应方法。准确率高的同时大大缩短了校准时间。

背景

脑电数据个体差异性巨大，常规方法是在测试阶段之前，从新受试者中收集大量数据，并对其进行标记，并用这些数据自定义分类器参数。不幸的是，这种需求是耗时的，并导致较差的用户体验，这使得模型不太实用。另一种途径是使用迁移学习方法来处理个体差异。迁移学习根据模型训练阶段是否使用目标领域的数据，大致可以分为领域适应(DA)和领域概化(DG)。在情感识别的实际应用中，由于DA使用所有目标数据，效率较低，DG不依赖目标主体的任何信息，泛化能力较差。与DA和DG的极端观点相反，在实时识别开始前引入短期校准阶段是可以接受的，也是必要的。然而，现有的研究表明，如果训练数据的数量相对于特征向量的维数较小，模型很可能会崩溃。因此，在有限的目标训练数据下实现良好的DA结果是一个挑战。

作者贡献/创新点：

提出了一种即插即用（PPDA）域自适应方法，该方法可以在不牺牲识别精度的情况下，使用很少的未标记目标数据进行校准。这是缩短校准时间的关键。
利用注意机制自动学习与情绪识别最相关的关键EEG通道和频段。

方法：

一、总体框架

PPDA的框架如图1所示。整个结构可分为训练阶段、校准阶段和测试阶段。在训练阶段，首先采用基于注意的池化方法，利用脑电信号关键通道和波段的空间信息。然后，采用基于长短期记忆的编解码器方案研究时间依赖性。用共享编码器E_s和私有编码器E^{1 ~ n}_p来分别捕获被试不变的情感表征和私有成分。通过使用编码器的输出，我们进一步建立了一个共享分类器C_s和单个分类器C^{1 ~ n}_p来同时识别情绪。在这一阶段，只使用标记的源数据来训练模型。在校准阶段，我们使用一个收集的最开始的数据，在训练过的E_s和解码器D_s的帮助下，对新被试的私有组件进行建模。在测试阶段，不仅可以像域泛化方法那样使用共享分类器的管道，还可以通过与私有源组件的相似性从私有分类器中获取知识。最后，应用分类器融合策略对两种识别结果进行融合。

图1 整个结构可分为训练阶段、校准阶段和测试阶段。训练阶段的子模块将通过几个损失函数的组合进行优化。在校准阶段，只有灰色突出显示的私有目标编码器将被更新。在测试阶段，最终的预测将由两条管道完成。红色方向线表示新被试的数据流，黑色方向线表示来源。

二、基于注意力的池化

假设x_t∈R^m作为t时刻的一个EEG特征向量的注释，其中m为特征维数。x_t的每一维数代表来自某波段特定信道的信息。我们得到加权脑电图特征向量~xt，其中~xt=AT (x_t)， AT表示基于注意的池化。将x_t输入到单层全连通神经网络中，通过softmax函数测量表示x_t各维重要性的归一化权向量α_t∈R^m，为:

在此之后，计算~xt作为加权后的新EEG特征。

对于α_t中的每个元素，数值越大，其对应的维度，即该波段的通道越重要。权值矩阵W_a∈R^m×m和偏差向量b_a∈R^m在训练过程中被随机初始化和微调。

三、基于LSTM的编码器（Encoder）和解码器（Decoder）

选择LSTM来构建编码器-解码器架构。对于输入序列中的每个元素，LSTM单元计算式(3)中的函数:

其中i_t, f_t, g_t, o_t是输入，遗忘，单元格和输出门。h_t和c_t分别为t时刻的隐藏状态和单元状态，h_t−1为t−1时刻的层隐藏状态或最开始的初始隐藏状态。σ代表sigmoid函数。

考虑一个时间步长为l的EEG序列x = {x₁, x₂，····，x_l}，其中每个点x_i∈R^m是由一个被试者的注意机制调制的m维EEG特征。利用t_i时刻的EEG特征x_i和共享编码器t_i−1时刻的隐藏状态hⁱ⁻¹ _Es来计算hⁱ_Es。同时计算私有编码器的隐藏状态hⁱ_Ep。隐藏状态h⁴_Es和h⁴_Ep的组合将共享解码器的h⁴_d初始化为:

解码器则以相反的顺序重建EEG特征序列。

四、学习损失

在训练阶段，只使用已有源域的标记脑电图数据来训练模型，目的是将损失降到最低:

其中α，β，γ，δ是控制损失项协同作用的权衡。通过最小化情绪的交叉熵损失：

其中y^j _I是来自特定j^th主题的输入x^j _I的真实情感标签。^y^j _i,s和^y^j _i,p是共享分类器和对应私有分类器的softmax预测:

使用均方误差来计算重建损失L_recon:

其中k是EEG特征的数量。差分损失Ldifference用于鼓励共享编码器和私有编码器对输入的不同方面进行编码:

在提取被试不变情感表征的思想驱动下，我们训练了一个领域分类器C_d，通过梯度反转层(GRL)来混淆共享编码器。在正向传播过程中，GRL作为恒等函数工作，但在反向传播时反转梯度方向。Lsimilarity的计算公式为:

其中d_i为ground truth域标签，而^d_i = C_d(C_s(^x_i))。

五、校正及测试

由于脑电图数据是按时间顺序记录的，只能将最开始的数据作为校准数据。首先对私有目标编码器E^t_p的参数进行随机初始化，利用标定数据，通过公式(8)和公式(9)分别对重构损耗和不同损耗进行优化。可以认为，一旦任务确定，共享编码器E_s具有足够的泛化性，具有提取主题不变情感成分的能力，D_s在数据重构中表现良好。因此，E_s和D_s参数在反向传播过程中保持不变，当联合损失达到最小时，E^t_p最能刻画当前主体的个体差异。

在测试阶段，一旦收集到目标序列x_t，则从每个X^j_s中随机选择相同长度的数据。模型的性能是由两个管道保证的。像大多数领域泛化方法一样，使用训练过的共享分类器来保证泛化能力，如y^t_s=C_s(E_s(AT (x_t)))。对于另一个管道，计算E^{1 ~ n}_p (AT (X^{1 ~ n}_rand))和E^t_p(AT (x_t))之间的余弦相似度，以利用私有信息。权重越高，说明分布与目标数据越相似，对分类器的信任度越高。然后通过权向量与C^{1 ~ n}_p的结果向量的点积得到预测的y^t_p。将这两个标签通过分类器融合策略进行整合后确定最终结果。

实验：

采用LOSO验证策略与其它方法在SEED数据集上比较。在校准阶段，丢弃情绪标签后的第一个T秒数据作为我们的校准数据。LSTM的层数固定为2，隐藏大小固定为64，时间步长固定为15。情感分类器和领域分类器是单层全连接网络，隐藏维数为64。设置校准时间T为45s。T对于控制损失项协同作用的权衡，参数是随机寻找的，即α∈{k * 10⁻¹|k∈{1，…， 9}，β∈{k∗10⁻⁴|k∈{1，…，5}，γ∈{k * 10⁻⁵|k∈{1，…，3}和δ∈{k * 10⁻²|k∈{1，…3}。采用Adam优化器作为优化函数，在{2^k∗10⁻⁴|k∈[−5,5]}中选择学习率。

表1 不同方法在SEED上运行的结果。

ATD是用于模型训练的目标数据量的缩写。

PPDA得到了稳定、良好的结果，准确率约为86.7%，标准差约为0.071。如表1所示。对于在模型训练过程中不依赖任何目标数据的DG方法，如DICA和DResNet，作者的模型的准确率分别提高了22.71%和1.41%，这表明即使使用少量的目标数据也会提高模型的识别性能。与DA方法相比，作者的模型优于所有的DA方法，除了WGANDA略有下降。虽然该方法的识别性能不是最优的，但在保持识别精度的同时，大大缩短了校准时间，具有重要的现实意义。省略了PPDA的校准环节的模型记为PPDA_NC，其他部分不变，重新运行SEED实验，检验其泛化能力。识别性能的降低说明了校准阶段的重要性。

撰稿人：梁容铭

指导老师：潘家辉

登录用户可以查看和发表评论，请前往登录或注册。