学习报告:人脸表情识别中基于图卷积网络的动态关系学习

本次的学习报告分享的是TRANSACTIONS ON IMAGE PROCESSING期刊在2021年发布的《Learning Dynamic Relationships for Facial Expression Recognition Based on Graph Convolutional Network[1]。这篇论文旨在提出一种新的双动态关系图卷积网络(Double Dynamic Relationships Graph Convolutional Network,以下简称DDRGCN)来构建人脸表情的感兴趣区域及其之间的关系,这一方法相较于现有的深谱卷积网络(Deep Spectral Convolutional Networks)展示出更为卓越的效果。

1 研究背景

基于神经网络的面部表情识别方法[2-3]已经非常成熟,所以在这几年,许多研究者开始将研究目标转至优化这些神经网络上来,其中最具有代表性的方向之一是使用局部面部特征来表示表情[4-6]

然而,这一方向面临着一些挑战。首先,这类方法在选择局部区域的时候依靠先验知识,笼统地选择眼睛、嘴巴和眉毛这些器官却忽略了这些部位与人脸动作单元(Action Units,以下简称AUs)之间的关系。而对于人脸来说,不同的AU组合可以表示不同的表情,因此这些方法在选择人脸感兴趣区域时缺少与AU的关联,也就降低了这些特征表达的准确性。其次,与人脸相关的肌肉运动是属于非欧几里得空间运动,而一般的图卷积网络虽然能够构建非欧几里得空间模型,但是当前基于图卷积的方法在构建人脸的图结构时,有关节点关系的定义也多取决于先验知识,没有考虑这些节点所在区域隐藏的依赖性,这在一定程度上影响了方法的准确性。最后,现有的图卷积网络的计算成本是非常大的,需要占用大量内存资源,因此很难在实际场景中进行进一步开发。针对以上挑战,本篇论文的作者为基于图卷积的人脸表情识别方法做出了以下创新:

1、在选择与表情相关的人脸感兴趣区域时,设计了一种与AU相关的计算方法,而不是依靠先验知识。

2、论文提出了一种双动态关系图卷积网络,通过加权邻接矩阵挖掘AUs和表情之间的空间依赖关系。而这个邻接矩阵是可以在网络训练中进行有效地学习,不再是像一般方法一样需要预先定义。

3、论文所设计的轻量级深度光谱图卷积网络,不仅使得网络的参数和大小降低到96K1.33MB,还同时保证了网络在准确性方面保有足够的竞争力。

2 提出的方法

2.1 感兴趣区域的选择

本篇论文在选择人脸感兴趣区域时,是依靠人脸68个特征点与AU区域两者之间的位置关系进行规律统计,依靠规律通过对特征点坐标推算出感兴趣区域的中心点坐标,如表1所示。同时,图1中也展示了感兴趣区域选择在AU指导下的可视化效果,可以发现这些区域不再是笼统地集中在部分器官上,也对一些肌肉群进行了关注。

1 AU、感兴趣区域与人脸特征点坐标之间的关系

1 AU与人脸特征点共同指导下的感兴趣区域图

2.2 节点与边的表示

在确定感兴趣区域后,为了构建这些区域之间的拓扑结构,需要对节点和边进行定义。本篇论文将感兴趣区域的空间特征作为节点,并探究了两种节点特征的编码方式——基于灰度图像的纹理特征表示(以下简称HLBP)和基于深层自动编码器的潜在表示。前者因其简单有效的特点已经被广泛应用于人脸表情识别任务中,而后者可以从原始图像中提取更多的压缩信息,降低感兴趣区域的维数。作者最后在对比两种模型的参数量后,选择了HLBP来实现特征表示。

在使用邻接矩阵表示边的关系上,本篇论文讨论了全连接和动态的局部连接两种情况,如图2所示。动态的局部连接的邻接矩阵分为两种,一种是表示区域内的,另一种是跨区域的。而作者选择这样定义的原因是考虑到在局部区域内的同类器官本身存在运动关系,而不同区域之间的面部器官也会产生动态关联,这样的自定义不仅能准确的表示人脸的区域运动关系,而且还降低了图表示的复杂性。

 

2 不同的人脸图结构表示方法

2.3 双动态关系图卷积网络

双动态关系卷积网络结构如图3所示,整个框架包含两个子图卷积层,两个网络分别处理人脸上下两半区域内的10个节点。网络的学习原理,首先是两个子网络通过跨区域的邻接矩阵和输入的节点特征向量来学习图特征,更新图结构中的权重,紧接着再依靠区域内的邻接矩阵再继续更新图的权重。通过这个过程,整个图中的每个节点特征就充分包含了区域内部和区域间的节点之间的关系。最终,两个子网络的特征进行拼接融合,实现特征分类。

3 双动态关系卷积网络结构框架图

3 实验效果

该篇论文的方法是面向面部表情识别的泛化模型,作者为了证明自身提出方法的先进性,一共在四个表情数据集上进行对比,实验相对丰富。本篇学习报告只展示CK+RAF-DB两个数据集上的结果来进行分享,有兴趣的同学可以关注论文。从表2和表3的结果可以看到,此论文在准确率上虽然没有达到最优,但是在参数量上却表现出卓越的表现,而这一优势是与本篇论文所想要达到的目标是相符的。

2 提出方法在CK+数据集上与其它方法的对比

3 提出方法在RAF-DB数据集上与其它方法的对比

同时,论文为了验证自己的模型结构,还做了一系列的对比实验。例如,图4展示了方法在不同的节点特征编码方式和不同的边连接方式上的对比,通过对比发现边在动态连接的方法下准确率表现最好,这支撑了论文的验证。值得注意的是,作者选择的节点编码方式是HLBP,但是从图表来看这个方法与HOG相比在准确率上并没有表现更好。作者对这一结论的解释是因为,HOG的运行时间很长,缺乏实时性,不符合论文的实验目标。

4 方法在不同设置下的准确率

4 学习总结

本篇论文在实验验证上是比较丰富的,有兴趣的同学可以详细学习论文。通过这篇论文,我认为最值得学习的是在实验效果的分析上,其实不用一直执着最优结果,而是要用实验结果来服务自己的研究目标。尤其是在HLBP这个方法的选择上,即便是面对多种不同的实验结果,作者都能从不同的维度去刨析产生这样效果的原因,进而来支撑自己的结论,这很值得我们学习。另外,这篇论文在感兴趣区域的选择上还是属于人工选择的方式,在未来可以思考如何适应性选择感兴趣区域也是值得研究的方向。

 

参考文献

[1] X. Jin, Z. Lai and Z. Jin, "Learning Dynamic Relationships for Facial Expression Recognition Based on Graph Convolutional Network," in IEEE Transactions on Image Processing, vol. 30, pp. 7143-7155, 2021.

[2]D. H. Kim, W. J. Baddar, J. Jang, and Y . M. Ro, “Multi-objective based spatio-temporal feature representation learning robust to Expression intensity variations for facial Expression recognition,” IEEE Trans. Affect. Comput., vol. 10, no. 2, pp. 223–236, Apr. 2019.

[3] Y . Liu, X. Y uan, X. Gong, Z. Xie, F. Fang, and Z. Luo, “Conditional convolution neural network enhanced random forest for facial Expression recognition,” Pattern Recognit., vol. 84, pp. 251–261, Jul. 2018.

[4] Y . Chen, M. Rohrbach, Z. Y an, Y . Shuicheng, J. Feng, and Y . Kalantidis,“Graph-based global reasoning networks,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2019, pp. 433–442.

[5] D. Valsesia, G. Fracastoro, and E. Magli, “Deep graph convolutional image denoising,” IEEE Trans. Image Process., vol. 29, pp. 8226–8237, 2020.

[6] J. Zhang, F. Shen, X. Xu, and H. T. Shen, “Temporal reasoning graph for activity recognition,” IEEE Trans. Image Process., vol. 29, pp. 5491–5506, 2020.

 

撰写:郝岩

审稿:梁艳


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: