余培-20220411-周报

论文阅读

1《Lossless Speedup of Autoregressive Translation with Generalized Aggressive Decoding》

融合AT的高性能和NAT的高效率的一个模型,结果可以达到和AT相当的水平,并且有数倍的解码提速。

2《GLAT: Glancing Transformer for Non-Autoregressive Neural Machine Translation》

思想上类似于cmlm,但采用了一种类似于课程学习的训练方式,进行两次解码,第一次解码不计算loss,只用于判断当前的模型性能如何,如果性能较差,就mask较少的tokens,让模型只学习如何生成一些片段;反之mask更多的tokens,让模型学习生成一个完整的句子。

在inference的时候也不是采用迭代的方式,而是一次性生成翻译。

 

实验

这周还是在跑一些baseline,主要是跑《Non-Autoregressive Translation with Layer-Wise Prediction and Deep Supervision》这篇论文里面cmlm+DSLP的s2t和g2t的baseline,为后续的改进做准备。


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: