团队成员崔江渝等关于智慧课堂动态表情识别的研究成果被IEEE TAFFC录用

近日,团队2024级研究生崔江渝等在梁艳老师和潘家辉老师的共同指导下,与华南师范大学心理学院、广州华美英语实验学校合作,其研究成果“MSDM: A Lightweight Multi-Scale Dynamic Mamba for Dynamic Facial Expression Recognition in Smart Classrooms”被人工智能领域国际顶级期刊IEEE Transactions on Affective Computing(JCR Q1,中科院大类学科计算机科学一区TOP,IF:9.8)接收。该论文自2025年7月25日提交,于2025年12月16日被正式接收。 

1. 研究背景

动态面部表情识别技术在课堂互动中发挥着重要作用,能够实时反映学生的情绪状态,为个性化教学提供有力支持。与语音、文本等情绪识别方式相比,面部表情具有直观、自然的特点,便于在真实课堂环境中无接触采集。动态面部表情识别通过捕捉表情的时序变化,能够更准确地反映情绪演变过程,在情感计算与教育智能交互领域具有独特价值。然而,现有动态面部表情识别模型仍存在两方面的局限:一方面,轻量级模型的识别精度不足;另一方面,高精度模型的计算复杂度高,难以在教室场景中实时部署。同时,现有方法对长时间表情序列的建模能力有限,未能充分挖掘表情动态演变中的时序依赖关系。因此,构建兼顾效率与精度的动态表情识别模型,对于推动智能课堂情感交互具有重要意义。

2. 方法和结果

在本研究中,我们提出了一种新颖的轻量级动态面部表情识别框架——多尺度动态Mamba(MSDM),如图1所示。该模型结合了多尺度注意力融合模块(MSAFM),以有效整合全局与局部面部特征,并引入动态时序聚焦机制(DTF)来增强对长期面部表情动态的建模。这些组件协同工作,能够在减少背景干扰的同时突出关键的面部肌肉运动。此外,我们提出了双分辨率双向Mamba(DR Bi-Mamba)块,可并行处理高分辨率和低分辨率面部图像,实现从粗到细的特征提取。这种受生物启发的策略通过有效融合全局上下文与局部细节,增强了模型的鲁棒性。

实验结果表明,MSDM模型在四个公共动态表情识别数据集(DFEW,FERV39k,MAFW,AFEW)上取得了最佳性能,加权平均召回率(WAR)分别为74.71%,52.60%,56.16%,57.48%。在两个公开的静态表情识别数据集(SFEW,RAF - DB)上也表现优秀,识别率分别达到了61.95%,90.06%。

图1 多尺度动态Mamba (MSDM)架构

图2 HM-Class数据集上四种表情示例

我们还构建了一个新的课堂动态表情数据集HM - Class,将课堂常见的情绪划分为专注、理解、感兴趣和分心四类(如图2所示),然后在我们的模型和现有的自监督模型上进行训练测试。我们的方法优于其他模型,UAR值和WAR值达到了86.23%和93.01%的最佳水平(见表1)。

表1 不同模型在HM-Class数据集上的比较

3. 总结

本研究针对智慧教室场景,提出了一种轻量级自监督动态面部表情识别框架——MSDM。为克服现有方法的局限性,MSDM引入了3种创新性的模块:多尺度注意力融合模块、动态时序聚焦机制和双分辨率双向Mamba模块,实现了性能与效率之间的最优平衡。实验结果表明,与传统的自监督架构相比,MSDM在六个公共数据集及我们新建的课堂情感数据集上均取得了更优的性能,同时所需参数量显著减少,GPU消耗更低。在未来的工作中,我们计划使用更大规模的模型变体探索MSDM的扩展性,并在更广泛、更多样的数据集上验证其泛化能力。


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: