学习报告：基于跨模态空间和语义一致性的视听p300拼写范式

脑机接口与混合智能研究小组

更多动态

8377

2022-02-13

本篇学习报告的内容为：基于跨模态空间和语义一致性的视听p300拼写范式，所参考的文献是《A Novel Audiovisual P300-Speller Paradigm Based on Cross-Modal Spatial and Semantic Congruence》，该论文于 2019年9月发表在期刊《frontiers in Neuroscience》上。本文提出一种新型范式，该范式结合了视觉与听觉两种感官模式的空间和语义特征，与只基于视觉的P300拼写范式相比，新范式能提高分类准确精度，且既适用于听力有限的患者，也适用于视力受损的患者。

研究背景

脑机接口（BCI）为大脑与外部设备之间提供直接通信的方法，可以帮助一些重度残疾病人与外界产生互动。P300拼写器是最常用的BCI应用程序之一。P300拼写系统通过检测P300电位输出目标字符，因此用户可以通过“心理打字”的方式实现与外界的沟通。目前关于P300拼写器的研究多是基于视觉的，但它的准确性和信息传输率在实际应用中并不令人满意，此外，某些患者在使用P300拼写器时，眼部肌肉控制能力会随着时间的延长而减弱。另外，有研究表明，当听觉和视觉刺激的空间方向一致时，视听刺激引发的ERP振幅比单独使用视觉刺激要更大。因此，本文在视觉刺激的基础上，加上了听觉刺激，且视听刺激在空间和语义上保持一致，它优于只基于视觉的P300拼写器，并且可以普遍的使用。

范式介绍

该范式有两个级别，级别1由多个字符区域组成，级别2有级别1中一个组区域中的单个字符组成，每个字符都被视为一个子区域。实验范式设计如图1所示。该范式把36个字符分成六个组（即级别1），并以3*2的方式对其排成左右两列。这种安排的目的是使左右字符的发音与左声道和右声道相匹配。为了定位每个组区域，我们从上到下以及从左到右

手机屏幕截图

中度可信度描述已自动生成

图1 视听拼写器的实验范式

对六个区域进行了编号，即1-6（图1A）。在选定级别1中的区域后会进入级别2，级别2也有六个子区域，对应一个组区域中的六个字符。同样，六个子区域呈三行两列排列。图1B显示了级别2的布局。

具有空间和语义一致性的视听P300拼写范式的设计如下：当突出显示左侧的组区域（如数字1）时，该组区域被绿色背景上的相应数字覆盖，同时左耳机中同时播放相应组区域号的发音，如图1。当右侧的组区域突出显示时，它被绿色背景上的相应数字覆盖，并且相应的组区域数字的发音在右侧耳机中同时播放。选择组区域后，它会跳至级别2（即子区域）。当左侧（或右侧）的子区域突出显示时（例如，字符“A”,图1D），子区域在绿色背景上覆盖相应的字符，并且同时在左侧（或右侧）耳机中播放相应字符的发音，这确保了子区域的空间和语义一致性。

数据采集和处理

实验数据采集使用NeuroScan放大器记录来自31个Ag/AgCl头皮电极（F7，F3，Fz，F4，F8，FC7，FC3，FC4，FC8，T7，C3，Cz，C4，T8，TP7，CP3，CPz，CP4，TP8，P7，P3，PZ，P4，P8，P03，P04，01，0z和02）记录脑电图（EEG）信号，电极的位置如图3所示。垂直和水平眼球运动分别使用VE0和HE0电极进行测量。阻抗保持在5KQ以下。所有信号都以250Hz的速率数字化，EEG数据用0.01-100Hz的带通滤波器进行数字滤波。听觉和视觉刺激的呈现由E-prime2.0软件（PST Inc.，Savanah，GA，美国）控制。

形状, 圆圈

描述已自动生成

图3 研究的电极位置

数据预处理首先使用回归分析算法（Semlitsch等人，1986）对原始脑电图数据进行眼部伪影校正，并使用0.01-30 Hz的带通滤波器进行数字滤波。通过将80μV设置为眼部伪影的阈值来消除不良刺激。对每种刺激类型（目标，非目标刺激）的ERP数据进行平均，并用于 ERP波形分析。从两种拼写范式（AV和V拼写范式）中每种刺激类型的所有受试者中获取的超平均ERP数据。预处理数据，包括分割、基线校正、去除不良刺激和过滤，用于特征提取和分类。

对于P300拼写器，用于分类的特征提取基于 EEG 数据的时间和空间特征。对于时间特征，我们选择了目标刺激引起的明显 ERP幅度以及目标和非目标刺激之间存在差异的时间窗口。空间特征取决于电极。值可以为选择通道（电极）和每个通道的特征提供数学基础。由公式(1)计算

其中 N1和 N2分别代表目标和非目标的样本量；和分别是目标和非目标的特征向量。

然后通过从 epoch 中选择每五个样本对 EEG 从 250 到 50Hz 进行下采样。因此，特征向量的大小为 CN× PN（CN表示通道数，PN表示样本点）。贝叶斯线性判别分析 (BLDA) 用于对 EEG 数据进行分类。 BLDA 是 Fisher 线性判别分析 (FLDA) 的扩展，有助于避免过度拟合。

实验结果

我们计算了所有受试者在V型和AV型拼写模式中31个电极的平均ERP波形，图像如图4所示，在200 ~ 500 ms之间，F3、Fz、F4、FC3、FCz、FC4、C3、Cz、C4、CP3、CPz、CP4、P3、Pz、P4、PO3、POz、PO4、O1、Oz、O2的波形出现明显的正偏转，并出现两个明显的峰，这可能是P300电位。此外，在 P7、P3、Pz、P4、P8、PO3、POz、PO4、O1、Oz 和 O2 大约200 ms 时观察到明显的负波形，可能是 N200 电位。

图4 在 V 和 AV 拼写范式中，由目标和非目标刺激在 31 个电极处引发的叠加大平均ERP。 AV 目标，视听目标刺激引发的 ERP 波形；AV非目标，视听非目标刺激引起的ERP波形； V 目标，视觉目标刺激引发的 ERP 波形；V 非目标，由视觉非目标刺激引起的 ERP 波形。

头皮拓扑图是通过从 AV 拼写范式中引发的波形中减去 V 拼写范式中目标刺激引发的 ERP 波形获得的；然后基于这些头皮拓扑分析波形中具有统计学显着差异的时域特征，并通过FDR 校正结果（图 5）。在波形中观察到 AV 和 V 拼写范式之间的统计学显着差异如下：（1）额叶区域 60-140 ms [F（1,17）= 10.642，P < 0.005]（图 5A）； (2) 额叶-中央-顶叶区域 360–460 ms [F(1,17) = 11.921, P < 0.002] (图5B); (3) 右侧额叶区域 700–780 ms [F(1,17) = 6.031, P <0.05] (图 5C); (4) 340–480[F(1,17) = 4.743, P < 0.05] 和 720–780 ms [F(1,17) =4.021,P < 0.05] 右侧颞区和左侧颞区 500–780 ms [F(1,17) = 15.16,P < 0.001] (图 5D)。

V 和 AV 拼写范式中目标和非目标刺激之间的特征差异由值表示（图 6）。如图 6 所示，目标和非目标刺激的 ERP 特征差异主要在 F7、F3、Fz、F4、F8、FT7、FC3、FCz、FC4、FT8、C3、Cz 和 C4 电极，在 CP3 处为 300 到 560 ms，V 和 AV 拼写范例中的 CPz、CP4、P3、Pz、P4、PO3、POz 和PO4 电极。此外，在 300-560 ms 处，CP3、CPz、CP4、P3、Pz、P4、PO3、POz 和 PO4 电极处目标和非目标刺激之间 ERP 的特征差异在 AV 拼写范式中大于在V拼写范式。为了呈现ERP的正向和负向偏差幅值并通过图形反映更丰富的信息，我们将负 ERP 幅值对应的值设为负值。

图5 V和AV拼写范式中目标刺激引发的波形与波形的头皮拓扑图的比较，通过从AV拼写范式中减去V拼写范式的ERP形成的差异：（A）60-140 ms处的额叶区域;（B）额叶–中央–顶叶，360–460 ms;（C）右额叶700-780毫秒;和（D）右颞时间 340–480 和 720–780 毫秒，左颞时间 500–780 毫秒。

图6 基于AV和V拼写范式中所有受试者的脑电图数据，在0-800 ms时由目标和非目标刺激引起的ERPs振幅的值。（A）V 拼写范式的 ERP 的值。（B）AV 拼写范例的 ERP 的值。

根据值和ERP分析的结果，选择特征向量进行分类为40*22（40表示0~800 ms之间的样本点，其中目标和非靶向刺激之间的ERP幅度和潜伏期也不同;22表示信道F7，F3， Fz， F4， F8，FT7， FC3， FCz， FC4， FT8， C3， Cz， C4，CP3、CPz、CP4、P3、Pz、P4、PO3、POz 和 PO4）。图 8 显示了具有不同叠加时间的 18 个受试者的 AV 和 V 拼写范式的单个和平均精度。在每个叠加位置，AV拼写范式中的平均精度高于V拼写范式中的平均精度。在AV拼写范式中，受试者3和受试者14的最佳结果，在两个叠加位下100%的准确性。在这个范式中，当精度达到100%时，12个受试者的平均叠加时间为3.83。在V拼写范式中，当精度达到100%时，八个受试者的平均叠加时间为3.63。比较了V和AV范式之间每个叠加的精度。当叠加 1 到10 倍（P < 0.05）时，V 和 AV 拼写范式之间存在显著差异，但叠加 3、4、7 和 8 倍除外。然而，与V拼写范式的精度相比，在三，四，七和八个叠加（P = 0.06）下，AV拼写范式的准确性呈上升趋势。对结果进行了FDR校正。我们比较了 V 和 AV 拼写范式之间所有主题在每个叠加时间的 ITR。图 7显示了每个叠加时间的平均 ITR。 AV 的平均ITR 在所有叠加时间都大于 V。

图7 每个叠加时间的平均 ITR

5、总结与讨论

该文献提出一种空间和语义一致的新型P300拼写范式，来研究与基于视觉的P300拼写器相比，视听刺激的空间和语义匹配的P300拼写器是否准确性更高。结论发现，与基于视觉的P300拼写器相比，新型视听P300拼写器的性能显著提高。新型范式增加了P300拼写系统多功能性，因为它不仅适用于听力有限的患者，也适用于视力随时间受损或恶化的患者。

撰稿人：陈雪柠

指导老师：潘家辉

登录用户可以查看和发表评论，请前往登录或注册。