Scientific Data | 基于多日记录与多任务设计的高质量运动想象脑机接口数据集

6.6学习报告

本研究发表于《Scientific Data》(中科院二区,IF=5.8),题目为《A multi-day and high-quality EEG dataset for motor imagery brain-computer interface》。

该论文由上海大学杨帮华教授担任第一作者及通讯作者,同时,天津大学张佳杨助理研究员也为通讯作者。本研究是上海大学与天津大学携手清华大学、西安电子科技大学等多家机构联合完成的。

论文链接:https://www.nature.com/articles/s41597-025-04826-y

数据集链接:https://doi.org/10.25452/figshare.plus.22671172

论文概要

在脑机接口领域,实现脑电信号在多日、跨被试条件下的稳定解码是一个核心挑战。为了突破现有数据集在样本数量、任务类型和信号质量方面的限制,研究团队构建了一个包含62名健康受试者、三天记录、双范式设计的高质量EEG数据集。该数据集不仅涵盖左右手抓握(2类任务)和双脚勾拉(3类任务),还提供原始数据、预处理数据及标准分析代码。通过深度学习模型EEGNet和deepConvNet验证,该数据集在运动想象任务分类中表现出色,2类任务准确率达85.32%,3类任务达76.90%。这项工作填补了公开MI-BCI数据集在跨会话鲁棒性方面的空白。

研究背景

近年来,BCI系统作为神经工程与智能交互技术的重要分支,在医疗康复、智能控制等领域展现出广阔的应用前景。尤其是基于EEG的运动想象(MI)BCI技术,凭借其非侵入性、低成本和操作便捷等优势,成为研究热点。MI任务强调用户主动进行“无动作”的想象,其脑电模式具有可训练性与康复促进潜力,已被证实在中风患者康复中具有显著疗效。然而,BCI系统在实际应用中面临信号不稳定、跨天/跨人波动大等问题。现有的主流数据集如BCI IV-2a/2b、OpenBMI虽然已支持MI-BCI算法的验证与开发,但受限于受试者数量不足、通道数有限、任务单一、无跨日设计等问题,难以满足深度学习算法对大规模、高质量数据的需求。特别是在跨会话鲁棒性建模、迁移学习等任务中,亟需一个具备多日记录、多人参与、多类任务和多通道采集的数据资源。为此,研究团队依托2019年世界机器人大会BCI比赛,在标准实验范式下,构建并发布了本研究所用的数据集,旨在推动MI-BCI算法在实用性与稳健性上的突破。

方法

实验范式设计

本研究的数据集采集于2019年世界机器人大会脑机接口比赛,采用两个经典的运动想象范式(Motor Imagery Paradigm)进行脑电信号(EEG)采集,以研究多日、多任务条件下的MI-BCI性能表现。实验包括两个任务设置:2类任务(2C)为左手抓握、右手抓握,3类任务(3C)为左手抓握、右手抓握和双脚勾拉,如图1所示。双脚勾拉是指保持脚跟贴地、缓慢抬起脚尖,使脚背与地面形成约45度角,这一动作被证明可以激活Cz通道对应的中线运动皮层区域,增加任务多样性和空间分布广度。实验过程如图2所示,所有提示均通过视觉与听觉双重方式给出。每次录制包含五个MI块,每个块含40个试次(2C)或60个试次(3C),共200(2C)或300(3C)个试次/记录日。被试在三个不连续的日子完成三次实验记录,设置了灵活的中间休息时间,以避免疲劳和保持注意力。每个试次持续7.5秒,包括提示阶段(1.5秒)、运动想象阶段(4秒)和休息阶段(2秒)。

fig1

图1. 视觉提示根据每个任务的表示形式。(a)左手抓紧(b)右手抓握(c)脚钩(d)休息

fig2

图2. MI的实验范式。(a)实验范式包括一个静息相和一个MI相,其中MI相包含五个MI块(b)一次试验中的实验范式

实验环境与参与者

本研究共招募62名健康、右利手的大学生,年龄范围为17–30岁(其中18名女性),均为BCI新手,且无神经、精神或肌肉系统疾病史。其中51名参与了2C任务,11名参与了3C任务。实验在封闭、低干扰的脑电采集环境中完成,所有被试在实验前均接受了MI任务训练。

数据采集设备

实验使用Neuracle自主研发的64通道无线EEG设备,采样频率为1000Hz,电极布局遵循国际10-20系统。

数据预处理流程

所有原始数据以.bdf格式保存,并在MATLAB R2021b环境中使用EEGLAB (v2023.0)进行预处理。具体步骤包括:1) 通道选择,剔除不相关的ECG与EOG通道,保留59个EEG通道;2) 重参考,以Pz通道为参考,提升时空一致性(最终保留58个通道);3) 使用FIR滤波器进行0.5–40 Hz带通滤波与50 Hz电源噪声抑制;4) 根据任务事件标记提取每个试次的4秒运动想象段落;5) 消除低频漂移;6) 将数据从1000 Hz下采样至250 Hz,以减少计算量。

实验和结果

为全面验证所构建EEG数据集在运动想象脑机接口(MI-BCI)任务中的可解码性,研究团队采用传统机器学习方法与多种深度神经网络模型在2类(2C)与3类(3C)任务上进行了系统分类性能评估。通过统一的预处理流程和十折交叉验证策略,图3的结果显示深度学习模型在两个任务中均显著优于传统方法。其中,EEGNet在2C任务上取得最高准确率85.31%,deepConvNet在3C任务中略胜一筹,准确率为76.90%。相比之下,传统方法CSP+SVM和FBCSP+SVM在2C任务中的准确率分别为61.12%和67.46%,在3C任务中FBCSP+SVM仅为58.40%,远低于深度模型表现,进一步凸显该数据集对现代神经网络架构的良好适应性。

fig3

图3. 2 C和3 C数据集的分类精度。红色破折号线指示p = 0.0138的机会水平。(a)2 C数据集的分类精度。(b)3 C数据集的分类精度。

更进一步,研究者分析了被试在三天独立实验中的表现变化。结果如表1和图4显示,2C任务中EEGNet在第一、二、三次实验中的平均准确率分别为81.77%、86.63%和88.90%,3C任务中则为71.91%、75.52%和83.27%。这一趋势清晰反映出被试在多次实验后对MI任务的熟练度逐步提升,表现出明显的BCI训练效应和可塑性,也体现该数据集可用于研究BCI学习曲线和个体差异。

表1. EEGNet在2 C数据集和3 C数据集上的三个记录会话中的平均分类精度。

table1

fig4

图4. EEGNet在2 C数据集和3 C数据集的三个记录会话的分类精度的散点图(a)2 C数据集的分类精度(b)3 C数据集的分类精度

为了评估数据集的整体价值,作者将其与当前广泛使用的BCI IV-2a与OpenBMI数据集进行对比分析。结果如表2和表3显示,本研究数据集在受试者数量、会话次数、采集通道数以及分类准确率上均处于领先地位。例如,在两类任务中,EEGNet模型在该数据集上实现了85.31%的分类准确率,显著高于OpenBMI数据集的70.89%和BCI IV-2a数据集的73.13%。综上,该数据集不仅为MI-BCI分类建模提供了坚实基础,也为探索跨会话、跨个体鲁棒性、迁移学习与BCI适应性研究提供了稀缺资源。

表2. 从文献中选出的数据集特征的比较摘要。

table2

表3. 通过使用选定数据集中的数据计算出的所有主题和会话的平均解码准确度。

table3

结论

本研究发布的多日高质量MI-EEG数据集涵盖了三次独立记录、多位健康受试者参与、两类与三类运动想象任务的完整实验流程。这一数据集不仅克服了现有MI-BCI公开数据集中样本数量少、通道设置有限、任务类型单一等瓶颈,还为跨被试、跨会话模型构建和BCI系统稳健性研究提供了基础平台。与BCI IV-2a与OpenBMI等主流数据集对比,本数据集在分类准确率与数据完整性方面均具领先性。总体而言,该数据集是面向传统算法与深度学习研究者的高质量、多功能研究资源,预计将在MI-BCI系统的研究与实际应用推进中发挥长期价值。

撰稿人:冯智勇

审稿人:潘家辉


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: