学习报告:基于ERP的听觉脑机接口语音流分离控制

本篇学习报告基于期刊Journal of Neural Engineering在2021年3月刊登的文章《Speech stream segregation to control an ERP-based auditory BCI》,这篇论文探究了在基于音频流的ERP脑机接口中为被试提供可理解内容能否帮助被试更好地区别目标和非目标刺激。实验结果表明,使用可理解内容能够显著提高脑机接口性能,同时更受到被试的主观青睐。

一、研究背景

听觉ERP脑机接口类型主要分为顺序方法和流方法。最常见的是基于oddball范式的顺序方法。即在一系列刺激中注意其中罕见的目标刺激,并执行相应的心理任务(如默数)。而流式ERP要求受试者注意多个(通常为两个)音频流中的一个,相较于顺序方法的ERP范式,流式方法中的目标刺激可以不罕见。本篇学习报告基于期刊Journal of Neural Engineering在2021年3月刊登的文章《Speech stream segregation to control an ERP-based auditory BCI》,这篇论文探究了在基于音频流的ERP脑机接口中为被试提供可理解内容能否帮助被试更好地区别目标和非目标刺激。实验结果表明,使用可理解内容能够显著提高脑机接口性能,同时更受到被试的主观青睐。

在流方法中,被试分离两种不同的音频流的能力是基于选择性注意特征的。实验中将可理解内容作为音频背景,这被称为鸡尾酒会效应,即当有多人进行谈话时,人能够将注意力集中在某一个人的谈话中而忽略其他的对话或噪音。基于以上条件,本文探究这种将可理解内容作为背景的流方式能否更好地帮助被试关注目标刺激并忽略非目标刺激。

二、实验

1.被试

23名健康被试,所有人先前都没有听觉BCI的经验,其中3人由于未完成实验被排除。研究最终包含了20个被试(年龄在23.1±5.66岁,其中12名女性,8名男性),在实验中被称为P1到P20。

2.范式设计

实验过程中,被试需要注意同时呈现的两个听觉音频流中的一个,注意其中的目标刺激(一个或是多个单词)并完成相应的心理任务。两个音频流分别出现在被试的左边和右边。同时,两边的声音为不同性别的人的声音,以便更好地区分两个音频流。

每个音频流中包含两种类型的音频:(A)用于诱发ERP的控制刺激(CS);(B)作为背景(阅读有声读物的人声)的背景刺激(BS)。

图1 三种条件下的范式流程

3.实验组

A1:音频流中仅有CS,作为对照组。CS为单词'no',目标刺激间隔在5s左右,刺激以伪随机的方式出现在序列中,刺激序列中不会连续出现同一边的刺激超过两次。该组中被试需要完成的心理任务是默数目标音频流出现的CS次数。

A2:CS与A1相同,为单词'no',但有不同的有声读物片段作为BS。在CS出现时不会打断BS,所以被试在实验中可以在同一个音频流中同时听到'no'和有声读物。该组中被试可以选择重复单词'no'或默数出现次数作为心理任务。重复单词是为了能够跟快地跟上BS,而默数可以减少脑力的负担,所以被试可以选择他们认为舒服的一种。

A3:这组中,CS是2秒前的BS内容,持续时间为500ms。每次CS出现时,BS会暂停,然后在CS结束后在原来的位置继续播放。使得被试能够感知到音频播放中的停顿。同时,BS暂停的方式不是突然的停顿,而是模拟快速远离被试的方式消失。与A2相同,被试可以选择重复或者默数CS作为心理任务。

在三组实验中,刺激之间的间隔为2240ms到2720ms之间,所以目标刺激的平均间隔为5000ms(目标刺激和非目标刺激交替出现)。

4.实验流程

每个被试需要完成三个条件下的实验,每个条件都包含初始校准任务和在线任务。校准任务用于获得被试的大脑信号参数并获得交叉验证结果。这一部分中,被试需要按照指示关注每一组中的某一个音频流。在线任务中,用户能够在每一组实验后得到反馈结果。

被试在每个条件下都要完成4个块的校准任务和2个块的在线任务。每个块中包含5次试验,即20次的校准试验和10次的在线试验。每次试验中包含6个序列,每个序列中包含一次目标CS和非目标CS,即每次试验包含12次CS。

在校准任务中的每次试验开始时,都会通过听觉提示'左'或'右',以及视觉提示指向左或右的箭头来告知被试者需要关注的音频流。

图2 实验流程

5.评估

在校准任务中,通过(A)准确率、(B)IRT以及(C)ERP波形来评估CS和BS对性能的影响。其中,准确率是通过四重交叉验证法得到的,即其中3个块用于校准分类器,剩下1个块用于验证。

ITR通过以下公式计算得到:

其中,B为每次选择的包含的信息数,P是系统的准确率,N是试验中的选择个数(N=2),T是完成试验所需的时间。

此外,也对ERP的波形振幅(µV)进行了三项分析:(a)对每种条件下的每个EEG通道的目标和非目标信号的振幅进行比较;(b):不同条件下的刺激类型(目标和非目标刺激)在每个通道下的比较;(c):目标和非目标信号之间的幅值差。

在在线任务中,通过准确率和ITR两个指标来评估性能。与校准任务不同,在线任务的准确率是通过正确选择的试验数除以总试验数(2个块中的10次实验)来计算得到的。

6.数据获取和预处理

实验在Fz、Cz、Pz、Oz、P3、P4、PO7和PO8电极位置,以250Hz的采样率记录EEG。以左侧乳突位置作为参考电极,AFz作为接地电极。采集到的EEG经过0.1到9Hz的带通滤波和50Hz的陷波滤波。

三、结果

1.校准任务和离线分析

图3 三种条件下的离线准确率和在线准确率

图4图5为三种条件下不同序列的准确率和ITR。将实验条件(A1、A2、A3)作为条件因子时,准确率和ITR都没有显著差异。

但将序列作为条件因子时,在序列5中,A2条件下在准确率和ITR方面显著高于A1条件

图4 三种条件下的不同序列的离线准确率

图5 三种条件下的不同序列的离线ITR

2.在线任务

图6图7为参与在线任务的17名被试的平均在线准确率和ITR,将实验条件和序列作为条件因子时的准确率和ITR都没有显著差异。但A2都得到了最好的表现。

图6 三种条件下的在线准确率

图7 三种条件下的在线ITR

3.ERP波形

图8为Pz位置在三种条件下的波形,图9图10为三种条件下目标和非目标刺激时的ERP反应。

图9中,三种条件下都出现了较为明显的ERP,在A2和A3条件下,目标和非目标刺激的波形之间都出现了显著差异(灰色部分)。同时,A2和A3条件下的ERP出现了一定的延迟。

图8 三种条件下的Pz位置的ERP反应

图9 三种条件下目标和非目标刺激时的ERP反应 

图9 目标和非目标刺激在三种条件下的ERP反应以及它们的差值

四、总结

通过对比A1和A2的实验结果,虽然两者在准确率上没有显著差异,但添加了可理解内容的背景后,在校准任务和在线任务中都得到了提升(校准任务从77.5%提升到85.5%,在线任务从71.76%提升到82.94%)。ITR方面,A2条件也优于A1条件。在校准任务中的第5序列中,A1和A2产生了显著差异。在线任务中,A2也优于A1(1.09bit/min和0.5bit/min)。在ERP波形的对比中,相较于A1,A2条件下的目标和非目标刺激之间有更显著的差异。A3在以上对比中都介于A1和A2之间,略高于A1。

五、结论

相较于单独的刺激(A1),将可理解内容作为背景可以改善流方法的听觉BCI性能。另一方面,将目标刺激伪装在背景内容中(A3)使得被试能够更好地忽略非目标刺激。但同时也更难感知到目标刺激,所以在实验中没有得到预期的效果。

 


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: