余培_20211101_周报

周报

2021.10.27-2021.11.1

论文阅读

1.《Frozen Pretrained Transformers for Neural Sign Language Translation》

概述:主要模型基于joint那篇的网络架构,提出并比较了Sign2(Gloss+Text) SLT任务中使用预处理语言模型的三种不同方法:BERT2RND, BERT2BERT和mBART-50(在包括德语在内的50种语言的语料库上进行了训练)。为了减轻过拟合,应用了Frozen Pretrained Transformer(FPT)技术,在训练期间冻结大部分参数。结果表明BERT2RND表现最好,mBART-50结果较差。

 

实验:

BERT2RND:FPT(bert) 用在encoder上,而decoder从头开始训练。

BERT2BERT:预训练encoder和decoder,其中decoder中的BERT使用了一个交叉注意模块(这个模块是从头开始训练的)。

mBART-50:预训练encoder和decoder,在decoder中冻结预先训练的交叉注意模块,但添加一个随机初始化的线性层,以转换编码器输出,使它们更好地与预先训练的交叉注意模式对齐。

微调:

对于BERT2RND和BERT2BERT的两种微调方式:

(1)微调layer normalization参数, positional embeddings, sign embeddings 以及

decoder token embeddings;

(2)微调以上所有参数以及feedforward layers.

对于mBART-50的三种微调方式:

(1)微调layer normalization参数, positional embeddings和sign embeddings;

(2)微调以上所有参数以及token embeddings;

(3)微调以上所有参数以及feedforward layers.

 

实验结果:

2层的BERT2RND效果最好,BLEU-4分数为22.25,相比baseline(joint那篇,原文是21.32,本文作者跑出来的是19.86)提升了0.93(2.39). 由于过拟合,大型mBART-50模型的性能明显低于baseline。

 

Future Work:

(1)在低资源场景(如SLT)中使用FPTs似乎很有前景。

(2)手语建模(in encoder)似乎比口语建模(in decoder)从预训练的语言模型中受益更多。

(3)进一步的研究可以是:调查使用较小的双语模型作为FPTs。针对SLT数据中存在的主题,对书面文本的翻译模型进行微调(在对实际手语数据进行训练之前)。

(4)除了寻找更好的手语翻译架构外,也需要更好的特征提取方法。

 

 

2.代码

跑了一下STMC+Transformer的开源代码,文献给出的bleu4 是24.00,跑出来的是23.13.

 

 


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: