基于联合注意力机制的篇章级机器翻译
【原文:李京谕,冯洋《基于联合注意力机制的篇章级机器翻译》-载于2019年12月出版的“计算机研究与发展”第33卷第12期】
1.背景
推荐系统的主要目的就是解决以往句子级翻译中,忽略篇章上下文的信息,则可能造成语义不连贯、语句不通顺的现象。另一方面,篇章上下文信息可以提供给句子一些辅助信息,在翻译的过程中减少句子存在的歧义问题。篇章级别的机器翻译中,篇章中的上下文信息有篇幅长、信息量多的特点,但在实际情况下,对翻译句子有帮助的篇章信息往往十分有限。针对篇章信息冗余的现象,本文提出一种“硬关注”的方式计算注意力,并应用在篇章机器翻译的任务上。“软关注”的方式计算注意力时,每个输入对应的隐状态都参与了权重计算,这种方法便于训练中梯度的反向传播。如此很好的解决了翻译上的一些错误问题。
2.论文的创新之处
针对上述句子存在的歧义的缺点,论文进行以下的创新:
1)放弃使用以往LSTM循环神经网络的编码解码方法转而使用类Transformer类型模型。
2)使用“硬关注”(hard attention)排除无关联语句。
3)使用“软关注”(soft attention)将有关联语句进行加权增益。
3.模型结构
基于列表级排序的深度生成推荐方法主要包括点级隐式反馈数据生成和列表级排序列表构建两部分。模型结果如图1所示:
图1 论文所提出的模型结构图(该图选自原文)
1)编码器
这个部分主要由多头注意力、前向神经网络组成,包括编码器和解码器。每编码器将输入句子转化为相应的隐藏层,然后通过解码器从后验概率分布中采样的隐变量来获得生成分布进行预测。
2)硬关注机制的使用
消除无关联句子,通过设置将关联句子表示设置为1,无关联句子设置为0,
从而保留有关联句子。
3)软关注机制的使用
对保留下来的有关联的句子进行加权增益,建立联系,翻译相对应的句子。
4.实验与结果
对于译文的质量评估,使用大小写不敏感的BLEU-4作为评价指标,本文采用multi-bleu脚本进行计算, 实验结果如下:
表1 数据集统计信息(该表选自原文)
表2 主要实验结果(该表选自原文)
表3 与前人工作的实验结果对比(该表选自原文)
从以上3张表的实验数据可以看出,论文所提出的篇章级机器翻译在3个数据集上均获得了最好的效果。
5.总结
针对篇章级机器翻译中篇幅长、信息冗余的问题,本文提出了一种将硬关注和软关注两种注意力相结合的联合注意力机制对篇章信息建模,并将其应用在篇章级别的神经机器翻译模型中。在两个不同领域的公开数据集上的实验结果表明,基于联合注意力机制引入篇章信息的方法对机器翻译模型的翻译效果均有明显的提升。
撰稿:张鑫
审稿:丁美荣