余培-20220419-周报

这周主要在读一些论文。

1.《Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation》

一种适用于NAT的损失函数,以一种prediction和target之间的best possible alignment去计算交叉熵损失,具体的对齐使用的是匈牙利算法。如下图中的(c)所示。

图表

描述已自动生成

2.Non-autoregressive Translation with Dependency-Aware Decoder

(1)提出一种注意力转换过程,使用target output embedding对原始的decoder input(source embedding的soft copy)进行约束,将其从源语言空间映射到目标语言空间。

图示

描述已自动生成

(2)提出一种课程用于建模attention的反向依赖。

图示

描述已自动生成

 

3.《Non-autoregressive Machine Translation with Disentangled Context Transformer》

提出一种基于attention的模型,每次训练都同时基于不同的上下文生成所有位置的tokens。具体的如下:

文本, 信件

描述已自动生成

对于每一个token Yn,都从目标句子中随机采样不同的观测值,根据X和观测值去预测当前的位置,通过attention masking每次训练过程都能一次性生成所有位置的预测。

Infernece

从全mask开始,每次更新所有位置的tokens,但只依赖分数较高的位置。

文本, 信件

描述已自动生成

 


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: