这周主要在读一些论文。
1.《Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation》
一种适用于NAT的损失函数,以一种prediction和target之间的best possible alignment去计算交叉熵损失,具体的对齐使用的是匈牙利算法。如下图中的(c)所示。
2.《Non-autoregressive Translation with Dependency-Aware Decoder》
(1)提出一种注意力转换过程,使用target output embedding对原始的decoder input(source embedding的soft copy)进行约束,将其从源语言空间映射到目标语言空间。
(2)提出一种课程用于建模attention的反向依赖。
3.《Non-autoregressive Machine Translation with Disentangled Context Transformer》
提出一种基于attention的模型,每次训练都同时基于不同的上下文生成所有位置的tokens。具体的如下:
对于每一个token Yn,都从目标句子中随机采样不同的观测值,根据X和观测值去预测当前的位置,通过attention masking每次训练过程都能一次性生成所有位置的预测。
Infernece
从全mask开始,每次更新所有位置的tokens,但只依赖分数较高的位置。