神经机器翻译前沿进展
【原文:刘洋《神经机器翻译前沿进展》-载于2017年2月“计算机研究与发展”第54卷第6期】
1. 背景
机器翻译研究如何利用计算机实现自然语言之间的自动转换,是人工智能和自然语言处理领域的重要研究方向之一。2006年,google translate推出统计机器翻译方法成为商业机器翻译系统的主流。2014年,端到端神经机器翻译获得了迅速发展,相对于统计机器翻译而言在翻译质量上获得显著提升。
2. 神经机器翻译
2.1编码器-解码器框架
端到端神经机器翻译的基本思想是通过神经网络直接实现自然语言之间的自动翻译。 为此, 神经机器翻译通常采用编码器-解码器(encode-decode)框架。如图2(文中原图)所示,给定一个中文句子“布什与沙龙举行了会谈”,编码器-解码器框架为每个中文词生成向量表示,通过一个递归神经网络(recurrent netural network)从左向右生成整个中文句子的向量表示。将源语言端所使用的递归神经网络称为编码器,即将源语言句子编码成一个稠密、连续的实数量。
相对于传统的统计机器翻译, 基于编码器-解码器框架的神经机器翻译具有2个优点:
1)直接从生数据中学习特征。
2)能够捕获长距离依赖。
编码器-解码器难以有效处理长距离依赖,在长句上的翻译质量显著下降。为了解决该问题引入了注意力机制动态计算源 语言端上下文。
2.2注意力机制
基于注意力(attention)机制的神经机器翻译采用了完全不同的编码器,为每个源语言词生成包含全局信息的向量表示,如图3(文中原图)所示。
注意力机制改变了信息传递的方式,能够动态计算最相关的上下文,从而更好地解决了长距离信息传递问题并显著提升了神经机器翻译的性能。
3.前沿进展
4.总结与展望
神经机器翻译相对于统计机器翻译,神经机器翻译不仅能够从生数据中直接学习特征,而且能够通过长短时记忆和注意力等机制有效处理长距离依赖。
神经机器翻译研究面临着诸多挑战,5个科学问题仍有待进一步探索:
1)如何设计表达能力更强的模型?
2)如何提高语言学方面的可解释性?
3)如何降低训练复杂度?
4)如何与先验知识相结合?
5)如何改进低资源语言翻译?
撰稿:卢志毅
审稿:丁美荣