新闻：脑机接口利器，从脑波到文本，只需要一个机器翻译模型

脑机接口与混合智能研究小组

更多动态

7725

2020-04-15

机器翻译真的是万能的，不仅能够写诗、对对联、推导微分方程，还能够读取脑波信息。

3月30日，美国科学家在英国《Nature Neuroscience》杂志上发表了一篇论文，标题为《利用 encoder-decoder 框架，将大脑皮质活动翻译为文本》（Machine translation of cortical activity to text with an encoder–decoder framework）。其报告了一种能够以较高准确率解码神经活动，并将其翻译为句子的机器翻译算法。通过该算法，可将神经信号直接映射为句子。

美国科学家在《Nature Neuroscience》上发表论文

当人类思考时，大脑皮层中的神经元会产生微小的电流，不同的思考活动，激活的神经元也不同——这就是脑机接口技术所依靠的原理。但一直以来，脑机接口在解码神经活动方面只取得了有限的成功，其准确率依然远远低于解码自然言语——过去的脑机接口只能解码口头词语的片段或口头词组中不到40%的词语。

此次，美国加州大学旧金山分校科学家Joseph Makin及其同事，盘点了机器翻译领域的最新进展，并利用这些方法训练循环神经网络，将神经信号直接映射为句子。他们将脑波到文本的转换视为机器翻译的过程，脑波为输入序列，文本为输出序列。

通过让受试者朗读文本，收集相应脑区的电波，构成训练数据集，然后去训练一个端到端的机器翻译模型。

机器翻译模型训练过程

这种机器翻译方法将一名受试者的神经活动解码为口头句子的错误率较低，已经和专业级言语转录相当。此外，如果利用某人的神经活动和言语对循环网络进行预训练后再在另一名受试者身上进行训练，最终的解码结果有所改善，这意味着这种方法在不同人员之间或许是可转移的。

Joseph 等人的这项工作直接将脑波几乎无延迟地准确转换为文本，对于瘫痪患者来说，无疑是一大福音。

总体思路

作者借用了自然语言处理领域的概念，在自然语言的机器翻译中，是将文本从一种语言翻译到另外一种语言。而脑波到文本，事实上也是类似的一种「翻译」过程。

在Joseph 等人的这项工作中，他们尝试一次解码一个句子，这和现在基于深度学习的端到端机器翻译算法类似。两者相同的地方是，都会映射到相同类型的输出，即一个句子的词序列。不同之处在于输入，机器翻译的输入是文本，而Joseph等人工作的输入是神经信号——受试者朗读句子，实验人员用高密度脑电图网格（ECoG grids）从参与者的大脑皮层处收集的信号。

于是，对神经信号稍加处理后，便可以直接用 seq2seq架构的机器翻译模型进行端到端训练，基本不用进行改动。在这项工作中，最难的是如何获取足够多的训练数据集。我们知道，机器翻译的数据集可以达到上百万规模，但这个实验中的每一个受试者顶多也就只能提供几千量级的数据。在这种训练数据稀少的背景下，为了充分利用端到端学习的好处，作者使用了一种只包含30~50个独立句子的受限“语言”。

模型

收集的脑电波信号和对应朗读的句子，会作为数据输入到“encoder–decoder”架构的人工神经网络。

通过脑电转录说话时的文本

如上图所示，人工神经网络对输入数据进行处理会经过三个阶段：

1、时间卷积：一些类似的特征可能会在脑电信号数据序列的不同点处重现，全连接的前馈神经网络显然无法处理。为了有效学习这种规律，网络以一定的步幅为间隔，对每个间隔应用相同的时间滤波器（temporally brief flter）。

2、编码器循环神经网络：经过时间卷积的处理会产生特征序列，把特征序列输入到编码器循环神经网络里面，然后，神经网络的隐藏层会提供整个序列的高维编码，这个编码与长度无关。

3、解码器循环神经网络：在解码阶段，重点将是高维序列“翻译”成一个单词。这时的循环神经网络会进行初始化，然后对每一步的单词进行预测，当预测结果是end-of-sequence token时，停止解码。作者所使用的神经网络框架如下图所示：

神经网络框架

训练整个网络的目标是接近MFCC（梅尔倒谱系数特征），MFCC能够引导神经网络产生良好的序列解码。

但是在模型测试阶段，抛弃了MFCC，解码完全依靠解码器神经网络的输出。在模型训练中，随机梯度下降法贯穿训练的整个过程，所有的网络层都应用了dropout。

模型评估用错词率（The Word error rate, WER）量化，经过验证，所有参与者的平均WER为33%，对比当前最先进的语音解码WER的60%，效果较好。在最好的情况下，其中一个参与者将大脑信号转换成文本的错误率只有3% 。

解码句子的单词错误率

讨论

这项研究最大的不足之处就是——数据集太小，仅250个单词，30~50个句子。

若想把这种技术扩展到通用自然语言上，则需要探索，到底需要多少数据才足够，以及如何才能获得足够的数据。事实上，如果能够将脑电图网格（ECoG）长期插入受试者脑中，可用的训练数据量将比本实验（仅收集了半个小时的数据）大几个数量级。

在实际应用中会遇到一些情况，有些人已经失去了说话能力，尽管如此，这种方法仍然可以适用，尽管性能会稍有下降。

机器翻译的本质，就是从一种信息序列映射到另一种信息序列。特别是现在端到端的技术下，只要能够将你的问题换种表述方式，转换为序列到序列的映射问题，然后能收集到足够多的训练数据，那么都可以借用现有的机器翻译技术来做出巨大的改变。

注：本文系转载，版权归原作者所有，旨在传递分享脑机接口技术最新信息。

原文链接：https://baijiahao.baidu.com/s?id=1662636824468922947&wfr=spider&for=pc

https://baijiahao.baidu.com/s?id=1662673597673855501&wfr=spider&for=pc

登录用户可以查看和发表评论，请前往登录或注册。