融合AT的高性能和NAT的高效率的一个模型,结果可以达到和AT相当的水平,并且有数倍的解码提速。
思想上类似于cmlm,但采用了一种类似于课程学习的训练方式,进行两次解码,第一次解码不计算loss,只用于判断当前的模型性能如何,如果性能较差,就mask较少的tokens,让模型只学习如何生成一些片段;反之mask更多的tokens,让模型学习生成一个完整的句子。
在inference的时候也不是采用迭代的方式,而是一次性生成翻译。
这周还是在跑一些baseline,主要是跑《Non-Autoregressive Translation with Layer-Wise Prediction and Deep Supervision》这篇论文里面cmlm+DSLP的s2t和g2t的baseline,为后续的改进做准备。