学习报告:用于自动检测学生专注度的三维DenseNet自注意神经网络

本次分享的学习报告将围绕在2022年《APPLIED INTELLIGENCE》上发表的一篇名为《Three-dimensional DenseNet self-attention neural network for automatic detection of students engagement[1]的论文进行讲解。该论文针对在线教育环境下,教师无法很好地观察学生的学习状态,导致学生出现低效率与高辍学率等问题,提出了带有自注意力机制的DenseNet深度神经网络来检测学生的学习专注度情况。

一、研究背景和内容

受全球2019年冠状病毒疾病爆发影响,线上教学成为当下一种重要的学习方式。但因为线上教学的特殊性,教师很难观测到学生的学习状态,缺乏互动,容易导致学生的学习效率和兴趣的降低。学生专注度与面部表情、注视方向和身体姿态等因素有关,但考虑到面部表情是线上学习环境中最自然的非语言表示,故根据面部表情进行在线教育中的专注度检测成为了该领域的研究重点。

早期专注度研究大多以机器学习的方法为主,并且使用的数据集大多都是静态的离散图片,如ck+JAFFE[2]。但机器学习需要人为手工提取的特征作为输入,而深度学习的方法不光可以做到端到端的学习,还凭借其较深的网络结构,获取更加全面有效的图片特征而被广泛用在专注度检测的领域。同时随着DAISEE[3]EmotiW-EP[4]数据集的提出,专注度检测领域来到了视频数据的研究阶段。如何较好地利用视频的时序信息和当下用类别不平衡的数据集进行训练是目前专注度检测面临的主要问题。

二、提出的方法

该论文在预处理阶段对视频进行帧采样,每段视频得到300个帧,然后每10帧取一帧,得到30*3*224*224的帧序列。之后使用Dlib库去检测裁剪图片帧中的人脸部分,并舍去那些人脸信息不完整的坏帧,如图1所示。

1专注度检测模型总体结构图

2 DenseNet网络结构

将预处理得到的一组帧序列输入到带有自注意力机制的3D DenseNet网络中。如图2所示,DenseNet网络将所有卷积层连接起来,使得每一层的输入都是前面所有层的输出,充分利用特征信息。同时为了提高模型的性能,作者提出了空间、时间和时空三种自注意力机制策略来发现图片内与图片间的重要相关性。

3空间自注意力机制(左)和时间自注意力机制(右)

4时空自注意力机制

如图3所示,空间自注意力机制和时间自注意力机制就是利用可训练的三个卷积得到对应的Qx,KxVx,之后计算得到对应在空间和时间上的相关重要特征。而时空自注意力机制如图4所示则是将两者作为两个分支,将得到的特征与原始输入x进行加和,并且得到的效果最佳,用该策略进行后续的专注度检测分类,公式如下所示:

同时为了解决样本数据类别不平衡问题,该论文根据任务的不同,提出了CB-FL损失用于分类任务和CB-MSE损失用于回归任务。这些损失函数的本质思想就是降低易分类样本在损失计算中的权重,并扩大难分类样本的计算权重,使得网络更关注到那些较难分类的样本,两种损失函数公式如下所示:

 

三、实验

该论文的实验是在两个与专注度相关的公开数据集DAiSEEEmotiW-EP进行模型验证,这两个使用的数据集也是当前专注度领域中最有挑战性和经典的数据集。由于文章做了大量的消融与对比实验,在学习报告中不一一列举,仅选择几个关键的实验进行分享,感兴趣的同学可以下载原文查看完整的实验。

根据图5中的表格所示,对于在DAISEE数据集上的四分类实验中,采用CB-FL损失函数普遍好于其他类型的损失函数,并且当超参数γ和β分别为1.00.9时,模型的效果最佳,可达到63.59%的好结果。同时在时空自注意力机制和CB-FL损失函数的帮助下,DenseNet网络对于部分小样本的分类有了一定的改善,如图6混淆矩阵图中的b所示。

5时空自注意力机制下的不同损失函数以及不同超参数的分类结果

6 DAISEE数据集四分类的混淆矩阵

同时为了证明本论文提出的时空自注意力机制的有效性,取相同一组帧序列分别在有无时空自注意力机制条件下用Grad-CAM热力图进行可视化。根据图7的可视化热力图显示,在有自注意力机制情况下,DenseNet网络可以更好地定位到人脸中的重要部位,从而获得一个更好的分类结果。

7 Grad-CAM下的热力图

四、学习总结

该论文通过修改自注意力机制,分别得到帧序列在空间和时间上的重要特征。虽然只是一个较小的改进,但是却能很好地辅助网络关注到重要特征,在预测结果上获得一定得的提升,并且作者通过相关公式推导及说明,并配上生动的注意力机制结构图向读者形象地说明自己这一创新点的原理,同时还通过Grad-CAM热力图可视化证明了该创新点的可行性。同时为了解决样本数据自带的类别不平衡问题,该网络将其他学者根据该问题提出的CB LossFocal loss结合起来,在样本不平衡的DAISEE数据集上取得了一定改善。这一尝试再一次说明了改进损失函数依旧是解决样本类别不平衡的有效方法之一,并且将一些损失函数组合起来可能也会有更好的效果。

此外该论文对专注度检测未来的研究工作给出了一些有意义的想法。虽然该论文在少样本类别的分类上有了一定的进步,但部分样本依旧会出现较大的分类偏差,这一问题仍然会是专注度检测领域需要深入研究的方向之一。同时作者表示,因为一些人为标注等原因,像DAISEE数据集中其实存在一些人脸表情相似但被划分到不同专注度等级的现象。如果无法解决这一问题,训练得到的模型的性能将会被受到一定的限制,这一问题同样在日后需要被深入的探讨。

 

参考文献

  1. Mehta N K, Prasad S S, Saurav S, et al. Three-dimensional DenseNet self-attention neural network for automatic detection of students engagement[J]. Applied Intelligence, 2022: 1-21.
  2. Shen J, Yang H, Li J, et al. Assessing learning engagement based on facial Expression recognition in MOOCs scenario[J]. Multimedia Systems, 2021: 1-10.
  3. Gupta A, D'Cunha A, Awasthi K, et al. Daisee: Towards user engagement recognition in the wild[J]. arXiv preprint arXiv:1609.01885, 2016.
  4. Kaur A, Mustafa A, Mehta L, et al. Prediction and localization of student engagement in the wild[C]//2018 Digital Image Computing: Techniques and Applications (DICTA). IEEE, 2018: 1-8.

 

撰写:周卓沂

审稿:梁艳


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: