学习报告:从步态感知情感 Take an Emotion Walk(ECCV 2020)

       步态是人类步行的行为特征,是人类生存的基础,步行的控制十分复杂,包括中枢命令,身体平衡和协调控制,涉及足、踝、膝、髋、躯干、颈、肩、臂的肌肉和关节协同运动。任何环节的变化都可能影响步态[1]。步态不仅蕴含着身份,健康等信息,也蕴含着情感信息。研究表明步态和动作等肢体语言也可以表达情感[2-5]。并且不同情绪状态的人表现出不同的步态运动学特征。例如,研究发现带有沮丧情感的人就有着不同的步态模式,包括更缓慢的行走,更小的步幅等 [6, 7]。

      Take an Emotion Walk[8]是发表在ECCV 2020上的一篇文章(计算机视觉领域世界三大顶级会议分别为CVPR、ICCV和ECCV)。下面介绍此论文的内容和方法以及自己的总结和思考。

图1 Take an Emotion Walk(ECCV 2020)

1. 研究背景

      人们判断他人的情感可以通过像说话,文字等语言线索,也可以通过像眼动,面部表情,动作,行走等非语言线索。考虑到情感在日常生活中的重要性,人们一直致力于发展从各种线索中感知情感的自动化技术,应用于情感计算、治疗和康复、机器人学、监视、观众理解和角色生成等领域。虽然感知情绪有多种非语言形式,但在该论文的工作中关注的是人们的步态,数据都是从视频或动作捕捉数据库中提取的。在心理学和人工智能中,任何使用非语言线索来感知情感的方法都被认为是一个具有挑战性的问题,主要是因为这些线索的不可靠性,这些不可靠性来源于“模仿”表达,受主观意识影响,甚至是在某些场景中是受试者自我报告的情绪。然而,步态通常要求受试者较少的意识参与,因此往往是更可靠的线索。此外,心理学研究表明,观察者能够通过观察诸如手臂摆动、步幅、上半身塌陷等特征来感知行走对象的情绪。步态在计算机视觉中有着广泛的应用,包括动作识别和情感感知。然而,在设计基于步态的情感识别的方法方面存在一些关键的挑战

  • 基于手工制作的人体步态生物力学特征的方法预测精度较低。
  • 完全深度学习的方法在很大程度上依赖于足够大的注释数据集。但是标签的收集既昂贵又繁琐。情绪识别的基准数据集Emotion-Gait [9],有大约4000个步态数据,其中超过53%是未标记的。
  • 条件生成方法对数据扩充很有用,但当前方法只能生成短时间段的数据或具有相对较低的多样性。

      一方面目前的方法存在上述挑战,另一方面从视频和MoCap[10]数据中获取姿势既便宜又高效,这促使大规模基于姿势的数据集的可用性。

2. 主要内容与创新点

图2 步态情绪识别半监督分类网络结构[8]

       基于上述情况作者提出了一个半监督网络,如上图2所示。它接受从视频或运动捕捉数据中提取的三维人体步态序列,并预测离散的情绪状态,如快乐、愤怒、悲伤和中性。网络由一个无监督的自动编码器和一个有监督的分类器组成。无监督的自动编码器中的编码器分层地聚集在身体的各个部位。它学习人体各部位(手臂、腿部和躯干)运动的独立中间特征表示,然后以自下而上的方式汇集这些特征,将它们映射到自动编码器的潜在嵌入空间。解码器接收这些嵌入信息并以自顶向下的方式构造身体每个关节上的运动。作者还进行情感映射,限制了网络学习特征的空间,以包含由输入步态表达的生物力学情感特征的空间。这些情感特征包含了区分不同感知情感的有用信息。最后,对于标记数据,用监督的分类器学习将编码器生成的嵌入信息映射到情绪标签来完成训练过程。总而言之,主要创新点如下:

  • 一种半监督网络,由一个无监督的自编码器和一个监督的分类器组成,它们共同训练从人类步态的三维姿势序列数据预测离散的情绪状态。
  • 自动编码器上的分层注意力池化模块,用于学习未标记步态的有用嵌入信息,与Emotion-Gait基准数据集上三维步态的情绪识别和动作识别的最新方法相比,它的mAP (所有情感类的平均分类精度) 提高了1-17%。
  • 将输入步态所表达的情感特征包含在学习到的嵌入空间中。与最先进的方法相比,这将mAP (所有情感类的平均分类精度) 提高了7–23%。

       并且还观察到,随着更多的未标记数据用于训练,网络性能线性提高。

3. 实现方法

      该论文的步态情绪识别半监督分类网络结构如上图2所示,由三个组件组成,编码器(ENCODER)、解码器(ENCODER)和分类器(CLASSIFIER)。下面就对该网络的每个部分进行主逐一讲解:

3.1 Encoder with Hierarchical Attention Pooling

      首先将所有关节的旋转序列通过一个两层有组织的递归单元(GRU)来获得所有关节在所有步态周期的旋转特征信息。通过单独的线性单元传递这些信息。根据人体关节的运动链,将两臂、两腿和躯干的线性单位输出汇集到五个独立的线性层中。因此,这五个线性层中的每一个都学会将注意力集中在人体的不同部位。然后,将这五个线性层的输出汇集到另一个线性层,通过构造,将注意力集中在整个身体的运动上。对于池化,执行向量加法作为在不同层次上组合特征的一种方式。编码器学习自底向上的网络中关节旋转的层次结构。将层次结构中最后一个线性层的输出通过另一个线性层映射到编码器嵌入空间中的特征表示。

3.2 Decoder with Hierarchical Attention Un-pooling

      解码器从编码器中提取的嵌入信息中,重复进行5次反池化操作,并通过5个线性层传递重复特征。这些线性层的输出是表示五个部分(躯干、两臂和两腿)的重建的特征。重复这些特征中的每一个进行反池化,然后将它们一起输入到GRU中,GRU在一个步态周期中重建每个关节的旋转。随后的GRU在一个步态周期中接收重建的关节旋转,并连续预测下一个步态周期的关节旋转。

3.3 Classifier for Labeled Data

      分类器接受嵌入并将其通过一系列三层线性层,使第二层和第三层线性层之间的特征平坦化。在图中称为“output labels”的最终线性层的输出为预测是该情绪标签的概率。

4. 相关实验

4.1 实验数据

      Emotion-Gait[9]包括从3D姿势序列数据集的各种来源收集的步态,包括BML[11]、Human3.6M[12]、ICT[13]、CMU MoCap[10]和ELMD[14]。为了统一不同数据来源的数据格式,将情绪步态中的所有模型转换为ELMD中使用的21个关节点姿势模型。数据集总共有3924个步态,其中1835个有10个注释者提供的情感标签,其余2089个没有注释。大约58%的标记数据有快乐标签,32%有悲伤标签,23%有愤怒标签,只有14%有中性标签。

4.2 实验设计

4.2.1 情绪识别方法对比

      与文献[15]中以步态序列为输入,将步态的情感特征与基于LSTM的网络学习的特征相结合,形成混合特征向量进行分类。还与STEP[9]进行了比较,该方法使用步态输入和从步态获得的状态特征训练基于空间-时间图卷积的网络,然后使用基于图卷积的变分自动编码器(VAE)生成的数据对网络进行微调。结果见表1。

4.2.2 动作识别方法对比

      比较了基于时空图卷积网络(STGCN)、有向图神经网络(DGNN)和具有时间跳跃连接的多尺度图卷积(MS-G3D)的最新方法。STGCN根据三维姿势的骨骼结构计算空间邻域,根据跨时间步的同一关节实例计算时间邻域,并基于这些邻域进行卷积。DGNN基于运动依赖性计算骨骼结构的有向无环图,并用这些图训练卷积网络。MS-G3D在空间维度上执行多尺度图卷积,在时间维度上添加skip连接,以模拟各种动作的长期依赖关系。结果见表1。 

4.2.3 增加无标签数据对模型分类效果的影响

      实际上,从视频或使用运动捕获收集未标记的步态相对容易。通过同时不断向该网络添加无标签数据,并将结果呈现在图3中。

4.3 实验结果与分析

表1: 各方法分类精度值对比。 每个类的平均精度(AP)和所有类的平均精度(mAP)。
情绪分为快乐(H)、悲伤(S)、愤怒(A)和中性(N)。值越高越好。粗体表示最佳,蓝色表示次最佳。

      如表1总结了所有方法的平均精度AP和所有类的平均精度mAP值。该论文的方法比当下最好的方法STEP[9]的性能好7%左右,比性能最低的方法STGCN的性能好23%。基于LSTM的网络和STEP都将每帧情感特征和帧间特征(如速度和旋转)作为输入,但没有显式地建立这两种特征之间的依赖关系。另一方面,该网络在情感特征空间中嵌入一部分从关节旋转中学习到的特征。这些嵌入的特征反过来帮助该网络更精确地预测输出情感标签。动作识别方法STGCN、DGNN和MS-G3D更关注叶节点的运动,即手指数、脚趾和头部。这些节点有助于区分跑步和跳跃等动作,但不包含足够的信息来区分感知的情绪。

图3:增加无标签数据分类精度提升

       如图3所示,当向网络中添加更多的未标记数据时,每个类上的平均精度(AP)以及所有类的平均精度(mAP)都会线性增加。对于中立类分类精度提升尤为显著,因为中立类在数据集中具有最少的标签。这一趋势并不意味着即使在添加了2089个未标记的数据之后,中立者的AP也会饱和。这表明,该方法的性能可以进一步提高通过增加更多的无标签数据。

5. 总结与思考

       该论文就步态情绪识别展开研究,由于之前的方法,基于手工提取特征的方法分类精度较低,完全基于深度学习的方法需要大量带标签数据,对现有的数据进行数据增强也无法提高数据多样性,于是该论文提出了一种基于自动编码器的半监督方法。先从给定三维姿势序列中提取各个关节点的运动信息,通过编码器将这些关节点运动分层地汇集在一起,遵循人体中的运动链。限制潜在的编码器嵌入空间包含与情感有关的动作信息。解码器以自顶向下的方式从潜在的嵌入中重建每个关节的运动。对于带注释的数据,训练了一个分类器来将潜在的嵌入映射到运动标签上。半监督方法在Emotion-Gait基准数据集上的平均精度mAP为0.84,比目前最先进的算法性能提高了7%-23%。也通过实验验证了引入更多无标签数据参与训练可以提升分类效果。

于是我接下来的工作,首先复现并读懂这篇论文的源代码,然后沿着以下几个思路进行改进:

  • 本论文验证了引入更多无情绪标签数据参与训练可以提升分类效果。再结合小样本学习的理论,引入其他相关数据集进行预训练,是增加先验知识,缩小样本假设空间的有效做法。 但是本文中所用到的无情绪标签数据集数量依旧有限,于是考虑引入更多步态相关数据库参与训练。
  • 本论文讨论三种不同动作识别的方法,验证得出不同动作识别算法对模型的分类效果也会产生影响,于是考虑尝试引入较新的在动作识别领域效果优异的算法,进行实验验证和改进。
  • 本论文利用一组Affective Features[8]的先验知识构造自动编码器的损失函数,使网络关注那些与表达情绪更相关的动作特征。于是考虑增加类似的Affective Features数量或者其他方法来约束网络,使网络关注那些与表达情绪更相关的动作特征。

 

参考文献

[1] 钱竞光, et al., 步行动作的生物力学原理及其步态分析. 2006.
[2] Castellano, G., S.D. Villalba, and A. Camurri. Recognising human emotions from body movement and gesture dynamics. in International Conference on Affective Computing and Intelligent Interaction. 2007. Springer.
[3] Montepare, J.M., S.B. Goldstein, and A.J.J.o.N.B. Clausen, The identification of emotions from gait information. 1987. 11(1): p. 33-42.
[4] Coulson, M.J.J.o.n.b., Attributing emotion to static body postures: Recognition accuracy, confusions, and viewpoint dependence. 2004. 28(2): p. 117-139.
[5] Wallbott, H.G.J.E.j.o.s.p., Bodily Expression of emotion. 1998. 28(6): p. 879-896.
[6] Michalak, J., et al., Embodiment of sadness and depression—gait patterns associated with dysphoric mood. 2009. 71(5): p. 580-587.
[7] Xu, S., et al., Emotion Recognition From Gait Analyses: Current Research and Future Directions. 2020.
[8] Bhattacharya, U., et al. Take an emotion walk: Perceiving emotions from gaits using hierarchical attention pooling and affective mapping. in European Conference on Computer Vision. 2020. Springer.
[9] Bhattacharya, U., et al. Step: Spatial temporal graph convolutional networks for emotion perception from gaits. in Proceedings of the AAAI Conference on Artificial Intelligence. 2020.
[10] Cmu graphics lab motion capture database. http://mocap.cs.cmu.edu/ (2018).
[11] Ma, Y., H.M. Paterson, and F.E.J.B.r.m. Pollick, A motion capture library for the study of identity, gender, and emotion perception from biological motion. 2006. 38(1): p. 134-141.
[12] Ionescu, C., et al., Human3. 6m: Large scale datasets and predictive methods for 3d human sensing in natural environments. 2013. 36(7): p. 1325-1339.
[13] Narang, S., et al., Motion recognition of self and others on realistic 3D avatars. 2017. 28(3-4): p. e1762.
[14] Habibie, I., et al. A recurrent variational autoencoder for human motion synthesis. in 28th British Machine Vision Conference. 2017.
[15] Randhavane, T., et al., Identifying emotions from walking using affective and deep features. 2019.

附件

登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: