一、思路

1、为什么要用clip模型
CLIP,在各种视觉任务中显示出令人印象深刻的表现。并且clip因为在大规模图像-文本对上预训练了图像编码器和文本编码器,它可以利用语言的先验知识,在低资源和零样本迁移学习上表现也有非常优异的表现。
在本文中,我们提出从丰富的语义CLIP潜空间中学习手语的语义信息。具体来说,我们将clip的视觉编码器做一个动作识别的预训练,(这步可以加载预训练好的ActionCLIP),使CLIP的视觉编码器具备捕捉手语视频中手语动作和提取对应的特征的能力,然后将手语理解任务作为手语翻译的预训练任务,手语理解任务是将视频-文本作为对比目标的匹配问题,将文本视为标签,从文本编码器中获取每个手语视频的语言原型信息。
我们使用视频-文本的视频理解学习框架,从可学习的视觉编码器中获得视频嵌入,并将标签文本作为待匹配的文本特征。我们的目标是将视频特征对齐到固定的语言空间中。由于文本特征是从固定的语言模型中获得的,我们从某种程度上来说就是从CLIP模型提炼语言知识。另外,语言原型信息被限制在学习良好的语言潜在空间中,这也是一种更有泛化性的正则化。
2、使用adapter
Adapter采用额外的瓶颈层来学习新特征,并与原始预训练特征进行残差连接的特征融合。
在低资源情况下,缺乏足够的训练样本容易导致网络过拟合,所以使用adapter,调整少量权重,而不是优化CLIP的所有参数。
通过这种“残差样式混合”,CLIP Adapter可以同时利用原始CLIP中存储的知识 和来自Few-Shot训练样本的新学习的知识 。
3、为什么引入视频理解任务或手语理解任务
之前说的是视频检索任务,视频检索任务:就是输入一段文本,检索出最符合文本描述的视频。
目前主流的方法是将视频和文本编码成特征向量,由于含义相近的向量在空间中位置也是相近的,我们可以通过计算向量之间的相似度实现文本-视频跨模态检索任务。
这里可以把视频检索任务换成视频理解任务。
它就是一种双模态的对比任务,学习两种模态语义之间的对齐。这个视频理解任务设计的动机是在视频和文本之间架起桥梁,引入这个双模态对比训练是利用文本模态来约束视频模态的向量空间。
(参考ActionCLIP)
二、实验
1、adapter代码还在修改调整。
2、换成video-gloss对实验效果提升了一些。
3、在video-gloss对基础上,加入Phoenix2014数据一起训练
| baseline | 18.18 |
| video-text对 | 19.36 |
| video-gloss对 | 19.86 |
| video-gloss对 加Phoenix2014 | 20.23 |