学习报告:基于时空图卷积网络的骨架动作识别

一. 骨架动作识别

        基于视觉信息的重要性,计算机视觉的研究已成为计算机技术的重要研究内容。计算机视觉的目标是分析和理解场景中运动目标的行为,人体动作识别作为其中重要并具有挑战性的研究课题也获得了越来越多研究者的关注。该课题的研究内容非常丰富,从技术角度它既包含了模型识别、统计学习和视频图像处理等知识,同时涵盖了认知科学及人工智能等理论,是一个多学科交叉的研究课题。人体动作识别研究有着广泛的应用前景和重大的理论意义。

        由于骨架数据可以很容易地从高精度的深度摄像设备和姿态估计算法中获得,所以在动作识别任务中有很多基于骨架的动作识别模型和方法。这些方法大体可以分为基于手工设计特征的方法以及基于深度学习的方法这两类。

        传统的方法通常需要根据某些规则设计手工特征对人体进行建模,描述关节运动的动态性。例如使用了关节轨迹的协方差矩阵,使用关节点的相对位置对动作进行建模,使用身体各部分之间的旋转和平移等。然而,这些方法的性能并不令人满意,因为它们无法同时考虑多种描述元素。

        随着深度学习的发展,基于深度学习的方法也逐渐成为大家主要关注和探索的方向。基于骨架的动作识别任务在利用深度学习方法进行建模时主要使用两种广泛流行的模型以端到端的方式进行学习,也就是卷积神经网络(Convolutional Neural Network, CNN),循环神经网络(Recurrent Neural Network, RNN)和图神经网络(Graph Neural Networks,GNN)。

        典型的使用CNN的方法主要思想是将骨架数据通过人工设计的变换规则转换为类似图像的特征图作为输入,而后利用卷积神经网络进行特征提取达到动作识别的目的。例如将每一帧中任意两个连接的关节点间的距离映射到图像上,并将图像送进以ImageNet为基础的CNN模型中,实现动作分类的目的。该类方法主要是利用CNN模型在处理图像分类问题上的成功经验和模型优势实现动作分类这一目标。基于RNN的方法,这类方法利用的是RNN在处理时序问题上的优势对骨架序列进行处理。两类方法虽然都有广泛的应用,但是CNN和RNN都不能很好地保留骨架的空间结构信息,因为以向量或者类似图像的二维网格形式描述骨架序列无法准确地表示骨架数据的拓扑结构。近年来,GCN图卷积网络快速发展并应用于处理图数据。图卷积网络通常有两种构造思想,它们分别遵循不同的原理。一种是谱域思想,它的原理是借助于傅里叶变换,类似地在频域中执行图卷积。另一种是空域思想,它的原理是直接对拓扑图的节点及其邻域使用卷积滤波器来提取特征。空域思想通常依靠手工设计的规则来提取和获得邻居节点。

 

二. 基于时空图卷积网络的骨架动作识别相关工作

        2018年ST-GCN[1] 提出了一种基于图的卷积神经网络来处理人体动作识别问题,叫做时空图卷积网络(Spatial Temporal Graph Convolutional Networks, ST-GCN),首次将图卷积网络应用在基于骨架的动作识别任务上,动态的骨架模型可以自然地表示为一系列人体关节位置的时间序列,以二维或三维坐标的形式表示,通过分析其运动模式,可以识别人类的行为,作者对视频利用OpenPose等算法进行姿态估计,并构造骨架序列的时空图。用构造的图卷积网络(Graph Convolutional Network ,GCN)提取空间域信息,如图2所示。时间卷积网络(Temporal Convolutional Network,TCN)提取时间域信息,如图3所示。之后用多层时空图卷积(ST-GCN),逐步在图上生成更高层次的特征图,最后用标准的Softmax分类器将其分类为相应的动作类别,如图1所示。

图1 ST-GCN 网络示意图[1]

 

图2 ST-GCN构造邻接矩阵的分区策略图[1]:采取(d)策略,分为源点、近心点和远心点

 

图3 ST-GCN的TCN卷积过程示意图[1]

 

        随后出现了一系列的基于ST-GCN的改进工作。

        AS-GCN[2]在此基础上提出了一个 “动作-结构" 图卷积网络进行人体动作识别和预测,该模型利用注意力思想设计了A-link评估任意节点间的联系重要性程度,并且利用S-link获得图的更高阶的依赖关系,通过两种链接的组合来学习动作特征,更好地对提取空间域动作信息。

        2s-AGCN[3]在ST-GCN的基础上引入了参数化的方法,在原有的ST-GCN的自然连接邻接矩阵的基础上,新增了两个邻接矩阵,其中一个是完全从数据学习得到,判断两个关节点是否曾在联系以及联系的强弱,另一个邻接矩阵用经典的高斯嵌入函数捕捉关节之间的相似性,改进了ST-GCN中骨架拓扑结构单一的问题。

        Shift-GCN[4]也是对ST-GCN工作的改进,用Shift卷积算子取代传统卷积算子,利用1x1卷积算子结合空间shift操作,使得1x1卷积同时可融合空间域和通道域的信息,同时shift操作可以用更少的参数量和计算量达到更好的模型性能。并且在处理时间域上提出了一种自适应的时序Shift图卷积,其对于每个通道,都学习出一个可学习的时间偏移参数。

        CTR-GCN[5]在2s-AGCN上做了进一步的改进,提出不同 Channel 所代表的其实是不同类型的运动特征在各个节点之间的一种相关性,因此像2s-AGCN那样,所有通道都使用完全一致的邻接矩阵,并不一定是最好的做法。本文提出依据Channel动态地对邻接矩阵进行自适应的建模,捕捉关节点之间的相关性。

        下表列出了上述论文的发表会议,时间,以及在NTU RGB + D 60 [6]动作识别数据集(该数据集包含60个种类的动作,共56880个样本)上跨被试的动作识别准确率。

表1 各论文信息汇总表

论文

发表会议

时间

Top1 x-sub Acc(%)

ST-GCN

AAAI

2018

81.5

AS-GCN

CVPR

2019

86.8

2s-AGCN

CVPR

2019

88.5

Shift-GCN

CVPR

2020

87.8

CTR-GCN

ICCV

2021

92.4

 

三. 自我思考

  1. 后续基于对ST-GCN的改进工作,主要集中在如何更好地提取空间域特征,优化关节点之间的拓扑关系,不单采取ST-GCN的策略,仅用人体自然连接拓扑表示邻接关系,而是从实际动作特征角度出发,挖掘出潜在的非自然连接的拓扑关系,例如手和脚没有自然连接,但是运动过程中存在很强的动作关联性。如何进一步地挖掘优化改进关节点之间的拓扑关系,是一个可以继续深入研究的思路。
  2. ST-GCN和大部分基于ST-GCN的改进工作,都是采用先挖掘空间域特征,再挖掘时间域特征,而大部分改进工作集中在前者,如何更好地对挖掘时间域信息进行建模,是一个待改进的工作。
  3. 基于最新的CTR-GCN和Shift-GCN研究工作,我们得知,通道域也蕴藏的丰富的潜在信息,如何更好挖掘通道域信息也可以进一步思考。

 

参考文献

[1] Yan S, Xiong Y, Lin D. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1).

[2] Li M, Chen S, Chen X, 等. Actional-structural graph convolutional networks for skeleton-based action recognition[A]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition[C]. 2019: 3595–3603.

[3] Shi L, Zhang Y, Cheng J, 等. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[A]. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition[C]. 2019: 12026–12035.

[4] Cheng K, Zhang Y, He X, 等. Skeleton-based action recognition with shift graph convolutional network[A]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition[C]. 2020: 183–192.

[5] Chen Y, Zhang Z, Yuan C, 等. Channel-wise topology refinement graph convolution for skeleton-based action recognition[A]. Proceedings of the IEEE/CVF International Conference on Computer Vision[C]. 2021: 13359–13368.

[6] Shahroudy A, Liu J, Ng T-T, 等. Ntu rgb+ d: A large scale dataset for 3d human activity analysis[A]. Proceedings of the IEEE conference on computer vision and pattern recognition[C]. 2016: 1010–1019.

 

撰稿人:王书喜

指导老师:周成菊


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: