CVPR 2024 | MMA-DFER:单模态模型在真实环境动态面部表情识别中的多模态适应

文本

AI 生成的内容可能不正确。

该论文发表于IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024,题目为《MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild》。

坦佩雷大学的Kateryna Chumachenko为此文第一作者。

论文链接:https://openaccess.thecvf.com/content/CVPR2024W/ABAW/html/Chumachenko_MMA-DFER_MultiModal_Adaptation_of_Unimodal_Models_for_Dynamic_Facial_Expression_CVPRW_2024_paper.html

论文概要

近年来,动态面部表情识别(DFER)因其在实现更具同理心和人性化技术方面的关键作用而备受关注。对于实际应用而言,DFER模型在自然场景数据上的鲁棒性尤为重要。此类模型的一个改进方向是基于音频和视频数据的多模态情感识别。DFER中的多模态学习通过利用更丰富、互补的数据表示来提升模型性能。在多模态DFER领域,近期的研究方法侧重于利用自监督学习(SSL)的最新进展来预训练强大的多模态编码器。另一研究方向则致力于将预训练的静态模型应用于DFER。本文提出了一种不同的视角,通过调整SSL预训练的不相交单模态编码器来提升多模态DFER的性能,并且识别出该任务的主要挑战,即模态内自适应、跨模态对齐和时间自适应,进一步针对每个挑战提出了相应的解决方案。

研究背景

随着人机交互、医疗健康与智能监控等应用的快速发展,机器对人类非语言行为的理解需求日益迫切,其中基于面部表情的情感识别是关键研究方向之一。近年来,面部表情识别技术已从受控环境下的静态图像识别,逐步发展到动态视频分析,并进一步扩展至融合视觉与语音信息的多模态DFER。多模态信息能够提供互补线索,在复杂场景中有助于提升情感理解的准确性,因此成为当前研究的热点。

然而,现有多模态 DFER 方法大多依赖于大规模、配对良好的多模态数据以及专门的联合预训练策略。在真实的场景中,情感表达受光照、姿态、遮挡、背景以及个体差异等因素影响显著,多模态数据的采集与标注成本极高,且数据分布更加复杂。这使得在受控数据集上表现良好的方法,往往难以在真实场景下实现稳定泛化。此外,尽管自监督学习在单模态和多模态情感识别中已展现出潜力,但现有方法通常仍需要针对表情识别任务进行专门设计的预训练,限制了其通用性与可迁移性。

与此同时,大量性能优异的单模态基础模型(如视觉或语音模型)已在各自领域得到充分训练和验证,但这些模型通常独立训练、缺乏有效的跨模态对齐机制,难以直接用于多模态 DFER 任务。因此,如何在不依赖大规模多模态联合预训练的前提下,充分利用现有的单模态基础模型,实现对真实场景中动态面部表情的鲁棒建模与有效融合,成为亟待解决的重要研究问题。

方法与结果分析

本篇论文提出MMA-DFER模型,首先由两个预训练的冻结MAE编码器通过融合瓶颈模块进行模态对齐,随后接入联合适应模块和多模态时序Transformer,各模态中的可学习提示词独立处理预训练数据与下游数据之间的模态内差距。模型结构如图1所示。

fff.drawio

图1 MMA-DFER结构图

(1)采用渐进式提示调优弥合模态内差距

对提示调优采用针对每种模态独立进行,旨在减少单模态基础模型中的领域偏移。即为每种模态引入一组可学习提示,这些提示与数据序列拼接后通过反向传播进行更新。当模型处理token时,可学习提示会与数据token交互,从而改变其特征表示分布,使其更接近模型训练数据的初始分布。

虽然基于可学习提示的Transformer模型适应已在少数应用领域取得成功。然而,在先前的研究中,该方法仅应用于输入空间层面。同时,不同深度层级特征分布的差异可能具有不同本质,仅通过输入层级的统一提示难以全面解决所有问题。相反,在不同深度层级应用专属提示可有效促进模型适应。为此采用渐进式提示适配方案:在模型不同深度引入不同数量的 token,这些 token与初始M个可学习提示 token互补,并逐步注入网络,并在每层按公式(1)更新提示。

(2)运用融合瓶颈模块实现跨模态对齐

通过轻量级瓶颈融合适配器改造预训练的单模态模型,同时保留其单模态特征提取能力。即给定对应多帧的视频表示与音频序列,首先按照公式(2)将二者分别投影至低维潜在空间,获得对应的低维表示。

文本, 信件

AI 生成的内容可能不正确。

随后,每个低维表示根据公式(3)所示的聚合函数进行计算,获得每种模态的全局序列表示。

图片包含 信件

AI 生成的内容可能不正确。

对于音频模态,这个聚合函数计算通过对音频序列的token进行全局平均池化实现;对于视觉模态,则通过对单个视频中所有帧内所有图像序列的token进行全局平均池化实现。

在获得每种模态的全局低维表示后,通过与另一种模态(未聚合)进行加法融合,并运用公式(4)所示上采样函数将联合表示扩展回原始维度空间。

最后,通过公式(5)所示的门控跳跃连接将获得的融合表示添加到原始表示中,其中采用可学习参数α来控制多模态表示的强度。

图示

AI 生成的内容可能不正确。

(3)通过多模态时序 Transformer 实现时序对齐

采用时序自注意方法,并提出多模态时序 Transformer用于时序信息提取。即提取同一视频中每帧的[CLS]token,将其拼接形成时序序列,通过加法将音频分支对应的[CLS]token融合至视频序列,并使用联合适应模块处理新获得的多模态序列。此外,为多模态时序序列添加可学习的时间嵌入,并拼接新的[CLS]token。将新序列输入多模态时域Transformer模块进行处理。最终将[CLS] token作为输入传递至分类器。

为验证本文提出的模型的有效性,采用两个主流的多模态动态面部表情识别真实场景数据集DFEW和MAFW将本方法与现有最先进方法进行比较,对比结果见表1。

表1 MMA与SOTA方法的比较,*表示对两个均匀采样视频片段的平均预测值,M表示模态,Res表示图像分辨率

IMG_256

由表1的实验结果可知,MMA-DFER在各项指标上均优于其他先进方法。具体而言,在DFEW数据集上,MMA-DFER的UAR和WAR指标分别比当前最先进方法S2D高出1.5%,在MAFW数据集上高出1%。值得注意的是,S2D的最佳UAR和WAR分别来自不同模型/训练策略(含/不含弱类超采样),而MMA-DFER仅通过单一模型即达成此目标。相较于最佳多模态模型HiCMAE,MMA-DFER在224和160两种分辨率下均取得更优结果。在相同图像分辨率下,DFEW数据集提升2-3%,MAFW数据集提升1.5%。

为探究多模态时序Transformer的布局对模型性能的影响,联合中间时序适配器(ITA)进行评估实验,实验结果见表2。

表2 多模态时序 Transformer 与中间时序模块的比较

IMG_257

由表2可知,本文的MTM方案表现最佳,其次是MTM与ITA的组合方案。在ITA方案中,d=128的变体显著优于其他竞争方案。

为了验证论文提出的融合瓶颈模块的有效性,将融合瓶颈模块和其他流行的多模态融合方法在160×160分辨率的DFEW数据集进行一折交叉的对比实验。实验结果如表3所示。

表3 模态融合方法的比较

IMG_258

通过表3可以得知,本文的方法显著优于其他融合方案,验证了融合瓶颈模型的有效性。MULT和MULT-concat模型表现欠佳,可能源于难以建立单帧图像与完整音频频谱图之间的关联性。

结论

本文研究了预训练单模态模型在真实环境中多模态动态面部表情识别中的适应性问题。识别出预训练模型适应此任务的关键限制,即模态内适应、跨模态对齐和时间适应,并提出了相应的解决方案。提出的MMA-DFER模型在两个主流DFER基准数据集DFEW和MAFW上创下新纪录。

撰稿人:周健波

审稿人:梁艳


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: