学习报告:具有测量伪心率增益的疼痛估计时空网络

本篇学习报告介绍一篇2022年发表在 IEEE TRANSACTIONS ON MULTIMEDIA的论文《Spatio-Temporal Pain Estimation Network With Measuring Pseudo Heart Rate Gain》,第一作者是Dong Huang,由西北工业大学、西北农林科技大学、芬兰奥卢大学、西北大学合作完成。该文章提出了一种通过面部表情分析识别疼痛的新方法,从原始视频中生成新的模态数据,并利用这些数据通过端到端网络联合估计疼痛程度。作者设计了一个疼痛估计时空网络,该网络采用双分支框架分别提取疼痛感知的视觉特征和伪生理特征并融合这两种特征。在两个公开的数据集上进行的实验表明,引入新的模态数据的方法是有效的,所提方法的性能优于现有的方法。

一、研究背景

在过去的十年中,人们不断探索各种疼痛估计的技术。疼痛自动识别系统的结构组成主要包括数据获取、数据预处理、特征提取以及分类等。疼痛自动识别的方法主要包括行为、语音、生理以及多模态融合等4个方面。

在行为疼痛反应中,因为面部表情相比其他行为表明的疼痛信息更为丰富,所以面部表情识别疼痛一直以来更受研究者关注。然而,仅基于静态或动态的面部图像估计疼痛强度的方法主要涉及视觉面孔,不能利用其他线索。疼痛发生的同时会伴随生理指标的变化,基于生理测量的疼痛分析,即使用心率增益(HRG)作为辅助信号,可以从参与者的生理反应中提取疼痛相关特征。

二、方法

文章介绍了以两种分支(即视觉和生理)估计视频中的疼痛强度的方法,流程图如图1所示。该方法主要包括数据预处理、深度网络和参数学习三个过程。在对视频序列进行预处理后,将其输入双分支网络以提取动态疼痛感知特征。视觉分支提供来自面部区域的视觉特征,而生理分支输出心率增益(HRG)作为生理模态的表示。在此基础上,实现了HRG分析仪,将HRG与疼痛强度联系起来,并结合HRG与视觉分支进行最终的疼痛估计。

图1 方法的流程图

1、预处理

在将疼痛视频输入深度模型提取双模态特征之前,需要对原始视频数据进行预处理。预处理过程如图2所示,主要包括人脸裁剪、关键帧选择和数据增强。

  • 人脸裁剪:由于对疼痛最直接的反应是面部的局部变形,所以主要的兴趣是面部区域。文章使用OpenFace从原始图像中分割出面部区域。OpenFace是一种鲁棒的人脸检测器,可以处理非正面和小遮挡的人脸或光照条件差的图像。
  • 关键帧选择:另一项任务是如何从视频序列中提取出多个图像帧以减少冗余。由于并非所有图像都包含疼痛表情,只有面部区域变化的图像帧才能代表疼痛的强度。文章使用在视频序列的时间窗口中选取最具代表性的帧的方法来选取视频的关键帧。
  • 数据增强:由于使用深度网络进行疼痛估计,因此需要大量数据进行模型训练。然而,由于疼痛视频的收集非常耗时,公共数据集中的视频数量有限。为了解决这个问题,系统对一个视频进行多次采样,将一个视频序列处理成几个训练样本。

图2 预处理流程图

2、双分支深度网络

双分支深度网络架构包含三个子部分:共享块和特殊结构、视觉和生理分支、模态融合和疼痛估计,如图3所示。首先,采用多个层提取时空动态信息,为后续的双分支特征分析提供丰富的信息。然后,提取面部动作特征以及从该网络生成伪HRG,进一步提取生理特征。因此,这个深度网络由两个分支组成,一个用于视觉疼痛特征,另一个用于伪生理特征。最终,系统充分考虑伪生理模态和视觉模态的影响,得到一个全面的疼痛估计。

图3 整体网络结构

三、实验

(1)数据集

该论文选择BioVid和Mint数据集作为基准数据集。在实验中,所有数据都采用预处理程序进行处理。

  • BioVid数据集:该数据集共包括90名受试者,来自三个年龄组。每个实验对象的右臂被诱导出四种不同强度的疼痛。同时记录皮肤电导水平(SCL)、心电图(ECG)、肌电图(EMG)和脑电图(EEG)等心理信号。该论文只在这个数据集的Part A进行了实验,该数据集的例子如图5的第一行所示。在BioVid Part A中,8700个视频序列中的每一个都标有各自的疼痛刺激强度。因此,文章的任务总共区分了五种离散的疼痛强度:无痛(0级)、低痛(1级,疼痛阈值)、两种中等强度(2级和3级)和剧烈疼痛(4级,疼痛耐受性)。
  • Mint数据集:多模态强度疼痛(Mint)数据集也可以用于疼痛估计。本数据集共包含20个研究对象。它包含了一系列被电痛刺激的受试者的面部视频。图5第二行显示了该数据集的一些示例。该数据集记录了9366个不同的视频序列,187 939个图像帧。每个序列都标有相应的电痛强度。疼痛级别与Biovid数据集相同,也分为五种强度。文章使用的数据集中的疼痛强度是均匀分布的,即每个强度的样本数量是相等的。此外,为了比较实验结果,报告的结果与这些数据集的性能指标以精度的均数±标准差表示。

图5 数据集部分例子

(2)消融实验

  • R(2+1)D卷积的评估

文章首先评估三种卷积滤波器的有效性,分别包括:C3D,R3D和R(2+1)D滤波器。为了公平比较,只替换卷积核(即C3D和R3D),而保留所提出的网络的其他部分。结果如表2所示。实验结果表明,采用R(2+1)D卷积算法可以获得最佳的性能。这表明该卷积滤波器在疼痛估计中具有更好的特征表示能力。图6所示的训练过程表明,R(2+1)D收敛更快,表明该网络更容易优化时空解耦的操作。

图6 三种卷积分类器的损失函数下降情况

  • 注意力结构的评估

文章提出使用注意结构使深度网络更加关注疼痛估计的重要区域,例如在空间域中面部纹理变化的区域和在时间域中包含疼痛表情的帧,结果如图7所示,其中Position =4和Position =0分别表示有注意结构和没有注意结构的网络。可以看出,有注意力的网络性能更好。其中一个原因可能是,注意力结构使深层网络能够专注于重要的信息。由于视频中包含大量冗余信息,因此疼痛估计任务只需要关注相关内容即可。

图7 注意力机制施加在网络不同位置对网络的影响

从热图上观察,注意力结构使疼痛感知区域更加显著,例如眼睛、鼻子区域。然后,文章探索了注意力机制的施加位置是否会对结果产生一定的影响。结果如图8所示。从结果可以看出,在高级语义特征部分添加注意力机制会降低准确率。原因可能是这些特征的感受野还不够大,相关的疼痛区域还没有被涉及。

图8 注意力机制在视觉和生理分支的热力图

此外,从视觉分支和生理分支的比较来看,疼痛估计任务中两者可以互相提供更多信息,提高准确率。文章还测试了所有参数完全共享的情况,结果如图9所示。这说明面部疼痛和伪生理特征的重点关注区域并不完全是同一区域。虽然它们在低级特征上可能有一些相关的联系,但在注意力机制层上存在一些差异。为了验证文章的想法,文章还将生理分支的注意图可视化,如图8第3行所示。

图9 共享网络参数和独立网路参数的结果对比

通过与视觉分支注意图的比较可以看出,虽然这些任务是相关的,但它们对重要信息的表现形式是不同的。因此,文章提出的视觉疼痛估计和生理HRG估计的双分支是必要的,这种方法既能挖掘这些任务之间的内在联系,又能适应单个任务的独特性。

(3)与现有方法的比较

在BioVid数据集,作者把提出的方法与一些多模态方法(结合不同的生理信号,或者把生理信号与视频信号相结合)、视觉方法进行比较,结果分别见表4和表5。此外,作者复现了一些在动作识别中具有代表性的视觉方法,把提出的方法和这些方法在Mint数据集上进行比较,结果见表6。从实验结果可以看出,提出的方法取得最好的结果。

四、总结&启发

  1. 数据预处理阶段,文章使用的提取关键帧和跳帧扩大数据库的操作,可以在大多数数据量不足的深度学习实验中使用;
  2. 文章使用热力图来说明面部疼痛识别和生理信号疼痛识别关注点是不同的,非常直观,将只用数据难以说明的点直观表述出来了;
  3. 文章对网络原理、特征融合的原理等部分描述比较紧凑,在网络设计部分的实验则描述得很充分,详略得当,重点突出。

论文链接:https://ieeexplore.ieee.org/document/9479776

 

撰稿:彭敏轩

审稿:梁艳


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: