周报
2021.10.27-2021.11.1
论文阅读
1.《Frozen Pretrained Transformers for Neural Sign Language Translation》
概述:主要模型基于joint那篇的网络架构,提出并比较了Sign2(Gloss+Text) SLT任务中使用预处理语言模型的三种不同方法:BERT2RND, BERT2BERT和mBART-50(在包括德语在内的50种语言的语料库上进行了训练)。为了减轻过拟合,应用了Frozen Pretrained Transformer(FPT)技术,在训练期间冻结大部分参数。结果表明BERT2RND表现最好,mBART-50结果较差。
实验:
BERT2RND:FPT(bert) 用在encoder上,而decoder从头开始训练。
BERT2BERT:预训练encoder和decoder,其中decoder中的BERT使用了一个交叉注意模块(这个模块是从头开始训练的)。
mBART-50:预训练encoder和decoder,在decoder中冻结预先训练的交叉注意模块,但添加一个随机初始化的线性层,以转换编码器输出,使它们更好地与预先训练的交叉注意模式对齐。
微调:
对于BERT2RND和BERT2BERT的两种微调方式:
(1)微调layer normalization参数, positional embeddings, sign embeddings 以及
decoder token embeddings;
(2)微调以上所有参数以及feedforward layers.
对于mBART-50的三种微调方式:
(1)微调layer normalization参数, positional embeddings和sign embeddings;
(2)微调以上所有参数以及token embeddings;
(3)微调以上所有参数以及feedforward layers.
实验结果:
2层的BERT2RND效果最好,BLEU-4分数为22.25,相比baseline(joint那篇,原文是21.32,本文作者跑出来的是19.86)提升了0.93(2.39). 由于过拟合,大型mBART-50模型的性能明显低于baseline。
Future Work:
(1)在低资源场景(如SLT)中使用FPTs似乎很有前景。
(2)手语建模(in encoder)似乎比口语建模(in decoder)从预训练的语言模型中受益更多。
(3)进一步的研究可以是:调查使用较小的双语模型作为FPTs。针对SLT数据中存在的主题,对书面文本的翻译模型进行微调(在对实际手语数据进行训练之前)。
(4)除了寻找更好的手语翻译架构外,也需要更好的特征提取方法。
2.代码
跑了一下STMC+Transformer的开源代码,文献给出的bleu4 是24.00,跑出来的是23.13.