近日,团队2023级研究生陈泉霖、陆德华、冯伟森等在李景聪副教授、的悉心指导下,在中科院二区期刊《IEEE Transactions on Instrumentation and Measurement》成功录用学术论文“HARFormer: A Masked Self-supervised Transformer-base Model for Human Activity Recognition with Predicting Somatosensory Tokens”。该论文自2025年3月提交,于2025年6月18日被正式接收。
人类活动识别是一种常见的任务,与物联网紧密结合,传统方法通过摄像头、雷达或者3d骨架进行获取。随着智能手机和手表等穿戴设备的普及,通过传感器获取的加速度和角速度来判断人类活动是一个更轻便的选择。这种数据可以很廉价地获得,但标注成本较高,这导致难以利用。为了更好的利用无标签数据,我们提出了一种自监督框架。
该论文的主要亮点包括:
HARFormer的主要架构以及自监督预训练的实现方法:
HARFormer由四部分组成:空间编码器、时间编码器、离散化切片与嵌入模块以及Transformer全局建模器。
空间编码器通过注意力机制为不同传感器通道分配权重,时间编码器使用深度卷积提取时间特征。
输入的多通道时间序列被划分为多个“感知补丁”,再通过位置嵌入加入时间和空间信息。
图1 主要架构图
2. 自监督预训练
首先,通过向量量化技术构建“感知词典”,通过vq-vae的方法将连续信号离散化为有限数量的“感知词”,以获得稳健、紧凑的特征。重建任务在频谱域中完成,以便忽略低级的信息,防止模型过于拟合低级细节,提高了对噪声和个体差异的鲁棒性。
然后,采用掩码预测任务:在无监督条件下遮蔽部分“token”,训练模型预测被遮蔽内容,从而学习稳健的表示。为了更好地利用每个样本,我们采取对称掩码的方式,将每个样本利用两次。我们方法的伪代码如下:
图2 预训练架构图
我们在三个数据集上和多种baseline进行对比,并提供了三种参数量的模型,结果表明我们的方法在少标签的环境下不是第一就是第二,这证明了我们方法的有效性
表1 在三个数据集上与baseline相比
结论
该方法提出了一个统一、高效的HAR建模框架。通过patch统一建模,使得我们的框架能适应多种数据类型。我们通过预测重构任务来学习稳健的特征。我们的方法在少标签的场景下表现良好。我们期望该方法能推进人类活动识别以及物联网的发展。
撰稿人:陈泉霖
审稿人:李景聪