团队成员周成菊等在中科院二区期刊Applied Intelligence发表最新研究成果

论文概要

近日,华南师范大学软件学院脑机交互与混合智能团队提出了一种级联残差时序平移和全面多粒度学习(GaitCTCG)网络用于步态识别,解决在实际应用中常出现的跨视角和个人外观变化(如携带手提包或服饰改变)的问题。该网络同时优化了时间和空间维度上的步态表征,不仅提升了在协变量因素影响下的识别准确率,而且尽可能的避免了由于模块的添加而造成的参数过多的问题。

由华南师范大学软件学院潘家辉教授和周成菊老师共同担任此篇论文通讯作者,华南师范大学本科生黄彬源和周成菊老师为共同第一作者。该工作由华南师范大学和日本大阪大学共同合作完成,其中华南师范大学为第一作者单位和通讯单位。

该论文已被Applied Intelligence(中科院二区,IF=5.3)接收,题目为《GaitCTCG: Cross-View Gait Recognition via Cascaded Residual Temporal Shift and Comprehensive Multi-Granularity Learning》,算法代码下载链接为:

https://github.com/HUAFOR/GaitCTCG

图 1 GaitCTCG整体框架图

研究背景

步态识别是指通过分析一个人行走的方式和姿势来辨别他们的身份,该技术在智能监控和刑事调查等领域具有广泛的应用。然而,在实际应用中,由于视角和着装等因素的影响,步态识别的准确性仍然面临挑战。探索时空方面的多样化步态表征并学习协变量因素无关而身份相关的本质描述符是提高在非受控环境下步态识别精度的关键步骤。

为了解决这个问题,之前的研究主要关注特定方面的特征表达,如长程(long-term)时间建模和单一粒度的空间表示。然而此类表示在多变的协变量情况下仍缺乏灵活性和多样性,不能很好适应协变条件下步态时空表征的构建。因此,如何构建一个全面的步态表示仍是该领域一直面临的重大挑战。

方法与结果分析

本文提出了一种新的步态识别方法——级联残差时移和全面多粒度学习(Cascaded Residual Temporal Shift and Comprehensive Multi-Granularity Learning (GaitCTCG))网络,通过充分挖掘多样化时间尺度和空间粒度的信息来解决步态识别中的协变问题。具体而言,本文提出了三个模块,级联残差时移模块 (cascaded residual temporal shift (CRTS) module),全面多粒度学习模块(comprehensive multi-granularity learning (CMGL) module)和 微型步态能力生成模块(micro gait energy generator (MGEG))。

  1. 级联残差时移模块(CRTS module)

CRTS模块可以在任意时间尺度下捕捉时间关系,且无需额外的参数或计算成本。CRTS模块可以基于时间偏移策略执行时间尺度扩展,以处理更复杂的环境。与以往将时间信息建模为固定感受野尺度的方法相比,本文方法允许更灵活地捕捉多个感受野的时间信息。据作者所知,这是第一次将时间偏移算法引入步态识别中。

如图2所示,CRTS模块基于Res2Net的结构框架将输入的通道均分成四等分,然后使用时序偏移模块(TSM)和级联残差达到多感受野的特征提取。消融实验表明,增加CRTS模块的效果是显著的,在正常情况(NM), 背包情况(BG)和服饰改变情况(CL)下具有提升,特别是CL情况下提升3.8%。

图2 CRTS模型示意图。

  1. 全面多粒度学习模块(CMGL module)

与传统的步态识别研究将特征表示限制在单一粒度或单一级别不同,本文提出的全面多粒度学习模块CMGL,旨在捕捉多个粒度和级别的特征。因此,可以利用底层细节和高层语义粒度这两种本质上必要的信息来区分在协变情况下的步态。

CMGL模块提取了步态表征的多尺度的局部信息和全局的多粒度信息(如图2所示),同时有机整合多层次下的多粒度信息从而空间特征涵盖了多粒度多级别的多样性。实验结果表明,该模块可提升1.2% (NM), 0.7% (BG) 和 1.4%(CL) 的识别准确率。

图3 CMGL中局部和全局信息提取模型示意图

  1. 微型步态能力生成模块 MGEG

不同于以往的步态识别研究仅使用空间池化进行特征细化,本文提出了一个简单但有效的时空细化模型MGEG,通过高效提取步态中的短程时间信息,从而提取紧凑的时间表示,并同时保留更丰富的空间特征。

如图4所示,该模块通过在空间和时间信息之间进行权衡,聚合短期时间特征,以提供步态的微观能量描述。与传统的池化相比,本文的时间池化策略分别提升了1.1%(NM), 2.4% 4.7%(CL)的识别准确率。

图4 MGEG模型示意图

另外,本文通过在两个最大的步态实验数据库CASIA-B和OU-MVLP上与其他SOTA方法的对比实验结果验证,本文所提出的方法GaitCTCG在各种复杂的协变条件下,比其他最先进的步态识别算法都表现更好,证明了其有效性和鲁棒性。

表2实验结果显示,GaitCTCG在CASIA-B数据集上的平均准确率明显高于其他已有的步态识别算法,特别是在BG和CL两种复杂识别条件下,GaitCTCG的准确率超过了其他算法很多。同时,当输入图像的分辨率降低到原来的1/4时,GaitCTCG的准确率下降较少,仍然能够抵抗复杂协变条件的影响,这也证实了该网络可以提供更全面的步态表示。

表1 GaitCTCG在CASIA-B数据集上与其他方法对比(rank-1 准确率%)

此外,本文还对GaitCTCG在OU-MVLP数据集上进行了测试,结果表明,GaitCTCG的大部分视角条件下都都有所提高,并且平均准确率取得了新的最优结果。这说明该方法具有良好的泛化性和鲁棒性。

表2 GaitCTCG在OU-MVLP数据集上与其他方法对比(rank-1 准确率%)

综上,本文提出的GaitCTCG网络在步态识别领域取得了很好的研究结果,表明该网络可以有效地解决步态识别中遇到的协变问题,并且在各种复杂条件下都表现出色。这为实际应用中的步态识别技术提供了新的思路和解决方案。

结论

本文提出了一种新型步态识别网络GaitCTCG,该网络包括三个相互依赖的模块:CRTS、CMGL和MGEG。级联残差时序平移(CRTS)模块用于在时间维度捕获多个感受野,而无需额外的参数或计算成本,从而灵活地整合不同时间尺度的特征。综合多粒度学习(CMGL)模块采用多层多粒度方案提取和融合不同尺度上的综合空间表示,利用输入的各种视觉细节。微步态能量生成器(MGEG)用于提炼序列表示,同时保留更丰富的空间信息,从而改进了局部时间段。该网络在当前最常使用的公共数据集上达到了最先进的性能。在两个基准步态数据集上使用本文提出的三个模块进行的实验表明,GaitCTCG可以应用于复杂协变情况,并具有良好的泛化能力,为步态识别在实际应用的所遇到的问题提供有力的方法支撑。

 

撰稿人:范骁曈

审核人:周成菊


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: