余培_20211101_周报

厦门大学语言知识计算小组

383

0

2021-11-01

2021-11-01

周报

2021.10.27-2021.11.1

论文阅读

1.《Frozen Pretrained Transformers for Neural Sign Language Translation》

概述：主要模型基于joint那篇的网络架构，提出并比较了Sign2(Gloss+Text) SLT任务中使用预处理语言模型的三种不同方法：BERT2RND, BERT2BERT和mBART-50（在包括德语在内的50种语言的语料库上进行了训练）。为了减轻过拟合，应用了Frozen Pretrained Transformer（FPT）技术，在训练期间冻结大部分参数。结果表明BERT2RND表现最好，mBART-50结果较差。

实验：

BERT2RND：FPT(bert) 用在encoder上，而decoder从头开始训练。

BERT2BERT：预训练encoder和decoder，其中decoder中的BERT使用了一个交叉注意模块（这个模块是从头开始训练的）。

mBART-50：预训练encoder和decoder，在decoder中冻结预先训练的交叉注意模块，但添加一个随机初始化的线性层，以转换编码器输出，使它们更好地与预先训练的交叉注意模式对齐。

微调：

对于BERT2RND和BERT2BERT的两种微调方式：

（1）微调layer normalization参数, positional embeddings, sign embeddings 以及

decoder token embeddings；

（2）微调以上所有参数以及feedforward layers.

对于mBART-50的三种微调方式：

（1）微调layer normalization参数, positional embeddings和sign embeddings；

（2）微调以上所有参数以及token embeddings；

（3）微调以上所有参数以及feedforward layers.

实验结果：

2层的BERT2RND效果最好，BLEU-4分数为22.25，相比baseline（joint那篇，原文是21.32，本文作者跑出来的是19.86）提升了0.93（2.39）. 由于过拟合，大型mBART-50模型的性能明显低于baseline。

Future Work：

（1）在低资源场景(如SLT)中使用FPTs似乎很有前景。

（2）手语建模(in encoder)似乎比口语建模(in decoder)从预训练的语言模型中受益更多。

（3）进一步的研究可以是：调查使用较小的双语模型作为FPTs。针对SLT数据中存在的主题，对书面文本的翻译模型进行微调(在对实际手语数据进行训练之前)。

（4）除了寻找更好的手语翻译架构外，也需要更好的特征提取方法。

2.代码

跑了一下STMC+Transformer的开源代码，文献给出的bleu4 是24.00，跑出来的是23.13.

登录用户可以查看和发表评论，请前往登录或注册。

SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们：