本篇学习报告介绍一篇关于计算机领域会议ACM/SIGAPP 2022上发表的论文《Deep graph neural network for video-based facial pain Expression assessment》,论文提出了一种从面部表情分析中识别疼痛的新方法。验证图形神经网络(GNN)架构的有效性,该架构利用了在受试者面部上自动跟踪的一组基准点的固有图形结构。在公开数据集BioVid上进行的实验表明,模型所提出的方法与行为疼痛的基线模型相比达到了更高的准确度,同时在自发性疼痛识别表现超过当时最先进方法。
一、研究背景与内容
在过去的二十年里,为了更好地了解情感,人们做出了巨大的努力。特别是情感计算领域利用不同的信号通道在情感识别方面取得了相关成果。然而尽管情感检测系统和模型的普及,大多数研究都特别关注情感识别,而疼痛通常被忽略。尽管如此,跨学科研究从潜在的生物学过程和探索行为证据出发,除自我报告外,还确定了有效和可靠的疼痛指标。
在行为疼痛反应中,因为面部表情相比其他行为表明的疼痛信息更为丰富,所以面部表情识别疼痛一直以来更受研究者关注。而在临床环境中,患者可能无法进行口头交流,而且医务人员无法持续监控他们。这时当自我报告(最可靠和最有价值的疼痛评估方法)不是一个选项时,基于面部反应的自动疼痛识别系统成为一种新的选择。
文章提出了一个新的疼痛识别系统,该系统利用面部标志的自然图形表示,采用描述局部动态演化的特征,考虑了疼痛表达随时间的进展,从而克服了帧级方法的固有局限性。该系统采用了一种图形神经网络(GNN)架构捕获表情语义,将面部标志点的局部运动信息连接到来自基准点之间关系的整体视图。
二、方法
基于视频的面部表情疼痛识别包括三个主要步骤:图结构定义、节点特征表示以及图计算。首先提取每个帧中粗略的人脸基准点构建图(见图1)。通过均匀子采样,得到显著的人脸基准点图(见图2)。根据每对点之间的欧几里得距离,创建连接邻近区域外部节点的选定界标和边(见图3)。
每个基准点的二维轨迹是它的特征,文章使用复杂度相关度量来表征每条轨迹,提供关于时间序列的动态性和可预测性的见解,以及总结频域中信号特性的频谱属性。
图1:粗略的人脸基准点图
图2:显著的简单的人脸基准点图
图3:对人脸上单个点建立边信息的示例
三、实验
实验中评估了疼痛识别任务模型(中性与疼痛)在两种不同场景下的性能:行为疼痛和热刺激诱发的自发性疼痛。
论文使用的数据集是BioVid热痛数据库,收集了90名受试者的多峰反应,这些受试者经历了四种强度的热痛,持续4秒,每次随机重复20次,在刺激之间采用随机姿势。实验在有和没有EMG传感器的情况下进行。由于文章分析的是面部表情,文章将实验重点放在没有肌电传感器的情况下采集的数据上。数据集的这一部分(A部分)由8700个5.5秒长的样本组成,对应于涵盖5个强度等级的87个受试者。在同一个数据集中,90名参与者展示了基本情绪和疼痛,共有630个1分钟视频,涵盖了7种情绪,其中包括疼痛(D部分)。
第一个实验评估算法的行为疼痛分类性能。使用数据库的D部分,为178个视频选择疼痛和中性视频。每个视频被分成200个帧序列,总共达到1245个样本。这种实施方式的选择是由疼痛表达动力学的本质决定的,通常是不连续的。因此,为了区分视频中疼痛的存在,文章分析短窗口,然后在视频级别进行全局预测。文章报告了对提出的方法(CM+DGCNN)和基线(AUs+SVM和CM+SVM)的评估,证明了采用特征(CM)与图结构和学习相结合的方法的有效性。(实验结果如表1所示)
表1:行为疼痛分类对比
第二个实验评估算法的自发性疼痛分类性能。一般来说,自发疼痛识别任务更具价值,但也更具挑战性。对于本实验,文章参考了数据库A部分中包含的短视频序列(5.5秒),仅考虑标记为无疼痛(0/4)和最大疼痛强度(4/4)的序列。通过这样做,文章为每个参与者(总共87名受试者)获得了40个视频,每个标签20个,总共3480个视频。
与行为疼痛分类实验相比,自发性疼痛分类的特征提取步骤和网络结构没有差异。尽管如此,视频和图形之间存在一对一的对应关系,这是由于视频序列的短暂性和每个视频中存在单个痛苦刺激。因此,视频级精度相当于DGCNN的标准精度。在本实验中,评估了文章的方法CM+DGCNN,并将其与基线方法AUs+SVM以及相关实验结果进行了比较。如表2所示,文章的结果略高于其他的最新水平。
表2:自发性疼痛分类效果对比
四、总结与思考
在本文中提出了一种新的疼痛表情识别方法,该方法利用面部运动的局部动力学以及面部的几何特性来训练用于基于视频的疼痛分类的GNN。通过与BioVid热痛数据库上的最新模型相比,该方法证明了其有效性。
基于GNN的方法灵活而有效,被证明可以使用在疼痛识别领域。该论文可以为疼痛识别工作带来启发。首先,可以针对面部的图神经网络深入研究显示哪些节点,建立怎么样的边关系,可以使疼痛识别更相关更为准确。其次,为了增强图神经网络的可靠性,我们需要多模态的生理信号,而针对面部的神经网络如何实现与其他模态生理信号融合是一个值得深入的课题。如何在图形结构下支持不同数据源的多种嵌入,从而更好考虑疼痛强度水平以实现最佳预测。
论文来源:Patania, Sabrina, et al. "Deep graph neural network for video-based facial pain Expression
assessment." Proceedings of the 37th ACM/SIGAPP Symposium on Applied Computing. 2022.
论文链接:https://dl.acm.org/doi/abs/10.1145/3477314.3507094
撰稿:黄伟聪
审稿:梁艳