余培-20220419-周报

323

2022-04-19

这周主要在读一些论文。

1.《Order-Agnostic Cross Entropy for Non-Autoregressive Machine Translation》

一种适用于NAT的损失函数，以一种prediction和target之间的best possible alignment去计算交叉熵损失，具体的对齐使用的是匈牙利算法。如下图中的（c）所示。

图表

描述已自动生成

2.《Non-autoregressive Translation with Dependency-Aware Decoder》

（1）提出一种注意力转换过程，使用target output embedding对原始的decoder input（source embedding的soft copy）进行约束，将其从源语言空间映射到目标语言空间。

图示

描述已自动生成

（2）提出一种课程用于建模attention的反向依赖。

图示

描述已自动生成

3.《Non-autoregressive Machine Translation with Disentangled Context Transformer》

提出一种基于attention的模型，每次训练都同时基于不同的上下文生成所有位置的tokens。具体的如下：

文本, 信件

描述已自动生成

对于每一个token Yn，都从目标句子中随机采样不同的观测值，根据X和观测值去预测当前的位置，通过attention masking每次训练过程都能一次性生成所有位置的预测。

Infernece

从全mask开始，每次更新所有位置的tokens，但只依赖分数较高的位置。

文本, 信件

描述已自动生成

登录用户可以查看和发表评论，请前往登录或注册。