学习报告:基于跨模态空间和语义一致性的视听p300拼写范式

  本篇学习报告的内容为:基于跨模态空间和语义一致性的视听p300拼写范式,所参考的文献是《A Novel Audiovisual P300-Speller Paradigm Based on Cross-Modal Spatial and Semantic Congruence》,该论文于 2019年9月发表在期刊《frontiers in Neuroscience》上。本文提出一种新型范式,该范式结合了视觉与听觉两种感官模式的空间和语义特征,与只基于视觉的P300拼写范式相比,新范式能提高分类准确精度,且既适用于听力有限的患者,也适用于视力受损的患者。

  1. 研究背景

  脑机接口(BCI)为大脑与外部设备之间提供直接通信的方法,可以帮助一些重度残疾病人与外界产生互动。P300拼写器是最常用的BCI应用程序之一。P300拼写系统通过检测P300电位输出目标字符,因此用户可以通过“心理打字”的方式实现与外界的沟通。目前关于P300拼写器的研究多是基于视觉的,但它的准确性和信息传输率在实际应用中并不令人满意,此外,某些患者在使用P300拼写器时,眼部肌肉控制能力会随着时间的延长而减弱。另外,有研究表明,当听觉和视觉刺激的空间方向一致时,视听刺激引发的ERP振幅比单独使用视觉刺激要更大。因此,本文在视觉刺激的基础上,加上了听觉刺激,且视听刺激在空间和语义上保持一致,它优于只基于视觉的P300拼写器,并且可以普遍的使用。

  1. 范式介绍

  该范式有两个级别,级别1由多个字符区域组成,级别2有级别1中一个组区域中的单个字符组成,每个字符都被视为一个子区域。实验范式设计如图1所示。该范式把36个字符分成六个组(即级别1),并以3*2的方式对其排成左右两列。这种安排的目的是使左右字符的发音与左声道和右声道相匹配。为了定位每个组区域,我们从上到下以及从左到右

手机屏幕截图

中度可信度描述已自动生成

图1 视听拼写器的实验范式

  对六个区域进行了编号,即1-6(图1A)。在选定级别1中的区域后会进入级别2,级别2也有六个子区域,对应一个组区域中的六个字符。同样,六个子区域呈三行两列排列。图1B显示了级别2的布局。

  具有空间和语义一致性的视听P300拼写范式的设计如下:当突出显示左侧的组区域(如数字1)时,该组区域被绿色背景上的相应数字覆盖,同时左耳机中同时播放相应组区域号的发音,如图1。当右侧的组区域突出显示时,它被绿色背景上的相应数字覆盖,并且相应的组区域数字的发音在右侧耳机中同时播放。选择组区域后,它会跳至级别2(即子区域)。当左侧(或右侧)的子区域突出显示时(例如,字符“A”,图1D),子区域在绿色背景上覆盖相应的字符,并且同时在左侧(或右侧)耳机中播放相应字符的发音,这确保了子区域的空间和语义一致性。

  1. 数据采集和处理

  实验数据采集使用NeuroScan放大器记录来自31个Ag/AgCl头皮电极(F7,F3,Fz,F4,F8,FC7,FC3,FC4,FC8,T7,C3,Cz,C4,T8,TP7,CP3,CPz,CP4,TP8,P7,P3,PZ,P4,P8,P03,P04,01,0z和02)记录脑电图(EEG)信号,电极的位置如图3所示。垂直和水平眼球运动分别使用VE0和HE0电极进行测量。阻抗保持在5KQ以下。所有信号都以250Hz的速率数字化,EEG数据用0.01-100Hz的带通滤波器进行数字滤波。听觉和视觉刺激的呈现由E-prime2.0软件(PST Inc.,Savanah,GA,美国)控制。

形状, 圆圈

描述已自动生成

图3 研究的电极位置

  数据预处理首先使用回归分析算法(Semlitsch等人,1986)对原始脑电图数 据进行眼部伪影校正,并使用0.01-30 Hz的带通滤波器进行数字 滤波。通过将80μV设置为眼部伪影的阈值来消除不良刺激。对每种刺激类型(目标,非目标刺激)的ERP数据进行平均,并用于 ERP波形分析。从两种拼写范式(AV和V拼写范式)中每种刺激类 型的所有受试者中获取的超平均ERP数据。预处理数据,包括分割、基线校正、去除不良刺激和过滤,用于特征提取和分类。

  对于P300拼写器,用于分类的特征提取基于 EEG 数据的时间和空间特征。对于时间特征,我们选择了目标刺激引起的明显 ERP幅度以及目标和非目标刺激之间存在差异的时间窗口。空间特征取决于电极。 值可以为选择通道(电极)和每个通道的特征提供数学基础。由公式(1)计算

  其中 N1和 N2分别代表目标和非目标的样本量;分别是目标和非目标的特征向量。

  然后通过从 epoch 中选择每五个样本对 EEG 从 250 到 50Hz 进行下采样。因此,特征向量的大小为 CN× PN(CN表示通道数,PN表示样本点)。贝叶斯线性判别分析 (BLDA) 用于对 EEG 数据进行分类。 BLDA 是 Fisher 线性判别分析 (FLDA) 的扩展,有助于避免过度拟合。

  1. 实验结果

  我们计算了所有受试者在V型和AV型拼写模式中31个电极的平均ERP波形,图像如图4所示, 在200 ~ 500 ms之间,F3、Fz、F4、FC3、FCz、FC4、C3、Cz、C4、CP3、CPz、CP4、P3、Pz、P4、PO3、POz、PO4、O1、Oz、O2的波形出现明显的正偏转,并出现两个明显的峰,这可能是P300电位。此外,在 P7、P3、Pz、P4、P8、PO3、POz、PO4、O1、Oz 和 O2 大约200 ms 时观察到明显的负波形,可能是 N200 电位。

图4 在 V 和 AV 拼写范式中,由目标和非目标刺激在 31 个电极处引发的叠加大平均ERP。 AV 目标,视听目标刺激引发的 ERP 波形;AV非目标,视听非目标刺激引起的ERP波形; V 目标,视觉目标刺激引发的 ERP 波形;V 非目标,由视觉非目标刺激引起的 ERP 波形。

  头皮拓扑图是通过从 AV 拼写范式中引发的波形中减去 V 拼写范式中目标刺激引发的 ERP 波形获得的;然后基于这些头皮拓扑分析波形中具有统计学显着差异的时域特征,并通过FDR 校正结果(图 5)。在波形中观察到 AV 和 V 拼写范式之间的统计学显着差异如下:(1)额叶区域 60-140 ms [F(1,17)= 10.642,P < 0.005](图 5A); (2) 额叶-中央-顶叶区域 360–460 ms [F(1,17) = 11.921, P < 0.002] (图5B); (3) 右侧额叶区域 700–780 ms [F(1,17) = 6.031, P <0.05] (图 5C); (4) 340–480[F(1,17) = 4.743, P < 0.05] 和 720–780 ms [F(1,17) =4.021,P < 0.05] 右侧颞区和左侧颞区 500–780 ms [F(1,17) = 15.16,P < 0.001] (图 5D)。

  V 和 AV 拼写范式中目标和非目标刺激之间的特征差异由 值表示(图 6)。如图 6 所示,目标和非目标刺激的 ERP 特征差异主要在 F7、F3、Fz、F4、F8、FT7、FC3、FCz、FC4、FT8、C3、Cz 和 C4 电极,在 CP3 处为 300 到 560 ms,V 和 AV 拼写范例中的 CPz、CP4、P3、Pz、P4、PO3、POz 和PO4 电极。此外,在 300-560 ms 处,CP3、CPz、CP4、P3、Pz、P4、PO3、POz 和 PO4 电极处目标和非目标刺激之间 ERP 的特征差异在 AV 拼写范式中大于在V拼写范式。为了呈现ERP的正向和负向偏差幅值并通过图形反映更丰富的信息,我们将负 ERP 幅值对应的值设为负值。

图5 V和AV拼写范式中目标刺激引发的波形与波形的头皮拓扑图的比较,通过从AV拼写范式中减去V拼写范式的ERP形成的差异:(A)60-140 ms处的额叶区域;(B) 额叶–中央–顶叶,360–460 ms;(C)右额叶700-780毫秒;和(D)右颞时间 340–480 和 720–780 毫秒,左颞时间 500–780 毫秒。

图6 基于AV和V拼写范式中所有受试者的脑电图数据,在0-800 ms时由目标和非目标刺激引起的ERPs振幅的值。(A)V 拼写范式的 ERP 的 值。(B)AV 拼写范例的 ERP 的 值。

  根据值和ERP分析的结果,选择特征向量进行分类为40*22(40表示0~800 ms之间的样本点,其中目标和非靶向刺激之间的ERP幅度和潜伏期也不同;22表示信道F7,F3, Fz, F4, F8,FT7, FC3, FCz, FC4, FT8, C3, Cz, C4,CP3、CPz、CP4、P3、Pz、P4、PO3、POz 和 PO4)。图 8 显示了具有不同叠加时间的 18 个受试者的 AV 和 V 拼写范式的单个和平均精度。在每个叠加位置,AV拼写范式中的平均精度高于V拼写范式中的平均精度。在AV拼写范式中,受试者3和受试者14的最佳结果,在两个叠加位下100%的准确性。在这个范式中,当精度达到100%时,12个受试者的平均叠加时间为3.83。在V拼写范式中,当精度达到100%时,八个受试者的平均叠加时间为3.63。比较了V和AV范式之间每个叠加的精度。当叠加 1 到10 倍(P < 0.05)时,V 和 AV 拼写范式之间存在显著差异,但叠加 3、4、7 和 8 倍除外。然而,与V拼写范式的精度相比,在三,四,七和八个叠加(P = 0.06)下,AV拼写范式的准确性呈上升趋势。对结果进行了FDR校正。我们比较了 V 和 AV 拼写范式之间所有主题在每个叠加时间的 ITR。图 7显示了每个叠加时间的平均 ITR。 AV 的平均ITR 在所有叠加时间都大于 V。

图7 每个叠加时间的平均 ITR

5、总结与讨论

  该文献提出一种空间和语义一致的新型P300拼写范式,来研究与基于视觉的P300拼写器相比,视听刺激的空间和语义匹配的P300拼写器是否准确性更高。结论发现,与基于视觉的P300拼写器相比,新型视听P300拼写器的性能显著提高。新型范式增加了P300拼写系统多功能性,因为它不仅适用于听力有限的患者,也适用于视力随时间受损或恶化的患者。

 

撰稿人:陈雪柠

指导老师:潘家辉


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: