学习报告:一种用于驾驶疲劳检测的乘积模糊卷积网络

本篇学习报告将汇报一篇发表在IEEE TRANSACTIONS ON CYBERNETICS(19.118,一区top)期刊上的文章:《A Product Fuzzy Convolutional Network for Detecting Driving Fatigue 》。该论文提出了一种基于脑电信号和心电信号的新型深度学习框架——Product Fuzzy Convolutional Network (PFCN) 用于驾驶疲劳检测。作者将多模态技术与深度学习技术充分整合,并应用到驾驶场景中,为智慧交通发展提供了有力的技术支撑。

一、动机

 

目前已有的疲劳检测虽也取得了比较好的效果,但仍然存在改进的空间,例如:
1.  现有的方法没有研究如何在模拟和真实驾驶环境中合理地融合脑电和心电信号以抑制噪声干扰,提高噪声条件下驾驶疲劳检测的准确性和稳健性。
2. 脑电数据来自多个电极通道,每个通道包含多个频段,也就意味着脑电数据通常是高维数据。在处理高维数据时,基于模糊神经网络的模型中隐藏层中的许多神经元没有被激活,可能会丢失部分有效特征,从而很难在高维的脑电数据中获得准确的分类结果。
3. 当心电信号或脑电信号受到噪声干扰时,它们的融合性能可能会大大下降。然而,现有的方法没有考虑如何开发一种有效的融合机制来提高驾驶疲劳检测的检测精度和稳健性 

 

二、方法

 

作者提出了一种名为PFCN的深度学习框架,有效地结合了脑电信号和心电信号的优点,避免了仅利用脑电信号或噪声条件下的心电信号进行疲劳驾驶检测的不足,并初步解决了上述三个主要问题。PFCN的概览图如图1所示,具体而言,PFCN包含如下三个子网络:
1. 第一个子网络提出了模糊层、循环层和乘积层(Product layer)的有效组合,以有效增强驾驶疲劳检测能力。具体来说,模糊层旨在捕捉EEG分布的特殊性;作为反馈层,循环层可以捕获脑电信号随时间变化的疲劳特征;乘积层可以更好地分析不同特征之间的依赖关系,增强子网络处理高维数据的能力。此外,乘积层还提供了低时空计算复杂度。 
2. 第二个子网络使用 1D CNN 处理 ECG 数据。这是因为 1D CNN 不需要手动提取特征,也不需要任何类型的预处理和后处理,使其成为实时心电检测的首选。此外,1D  CNN 可以在 ECG 数据分类中提供高精度和低计算复杂度 。
3. 第三个子网络提供了一种融合分离机制,它使用双线性模型来有效地融合心电图特征和脑电图特征。具体来说,融合分离机制不仅提供心电信号和脑电信号之间的特征融合,还分别使用脑电特征、心电特征和融合后的特征进行再学习。一旦心电特征或脑电特征受到噪声的严重干扰,融合分离机制仍能有效保证更高的检测精度。


图1 PFCN 框架概览

三、实验

 

数据采集

实验共采集了20个被试者的数据。为了能够更精确的获取对应的数据,采集非疲劳状态的EEG和ECG数据的实验在早上10点进行,疲劳状态的数据在下午2点钟进行。

每个被试共进行1小时的实验,且每5分钟填写一次Karolinska 睡眠量表以自我评估疲劳状态,此外还通过前置摄像头通过检测眼睑闭合来记录和评估受试者的眼睑闭合百分比 (PERCLOS)进一步判断被试者疲劳状态,当PERCLOS大于70%时,认为被试处于疲劳状态,否则为非疲劳状态。

实验包含在真实道路上采集的数据以及模拟驾驶环境下采集的数据,环境如图2所示。


图2 实验环境。左:真实道路驾驶,右:模拟驾驶

EEG采集设备:Emotiv Epoc+ ,14通道,采样率:256HZ

ECG采集设备:BMD101,采样率:512HZ

 

脑电数据预处理

 

采集到的原始EEG和ECG数据量分别为3600 × 256和3600 × 512 ,其中EEG数据通过快速傅里叶变换计算得到5个频带数据,即 θ(4–7 Hz)、α(8–13 Hz)、pre_β(14–20 Hz) )、post_β (21–30 Hz) 和 γ (30–80 Hz) ,之后再计算每个频段的平均功率。ECG的处理方式并没有明确给出。
在输入进模型之前,所有数据均需进行归一化操作。

实验结果

 

融合性能验证结果

为了确保模型能够很好地泛化到实际应用中,作者只使用模拟驾驶得到的数据来训练模型,用真实的驾驶实验结果对模型进行测试。

EEG 数据分为正常数据以及带有各种噪声的数据,噪声 EEG 数据涵盖了受眨眼、摇晃和说话影响的不同生理噪声信号。 
为了彻底评估PFCN的性能,实验包含三种输入,分别是:1) 仅使用EEG数据 2) 仅使用ECG数据 3) 同时使用EEG与ECG数据。

图3为在正常脑电图或噪声脑电图下仅使用脑电图特征、心电图特征与使用脑电图和心电图特征融合的精度比较。

图3 各类数据输入得到的准确率

由图3可知,EEG+ECG的结果总是能够达到最优水平,且使用带噪声环境采集的EEG数据进行测试得到的结果明显下降,而EEG+ECG的多模态融合方式有效缓解了这个问题,这证明PFCN具有更高德鲁棒性,将能够更适合在真实的环境使用。

此外,为了证明EEG、ECG以及EEG+ECG融合三者之间的重要程度,作者给出了融合时各数据的权重,如图4所示。
图4 权重占比

Product layer性能分析

为了验证Product layer的性能,作者将其与乘法公式的空间激活层(mul layer)进行了比较。具体来说,将具有乘法公式(mul layer)的传统空间激活层的PFCN模型与具有乘积层的PFCN模型进行了比较。
在这个对比实验中,共设置了四组实验,分别对应不同的特征维度:30、40、50、60。这些实验使用正常的 EEG 信号。对于每组实验,所提出的 PFCN 都经过十次训练和测试。我们对十个测试结果进行排序,从第三到第八数据中选取排序的数据计算平均检测准确率。 结果如图5所示。

图5 Product layer与Mul layer对比

随着特征维度的增加,Product layer 在 PFCN 模型上的有效性变得越来越显着。这是因为Product layer可以更好地掌握特征维度之间的依赖性和相关性,从而更好地提取它们。然而,mul layer往往会导致激活曲线随着特征维度的增加而变得平滑,在这种情况下,PFCN 很难区分两个样本之间的差异。  

其他

作者在时空复杂度、鲁棒性方面对 PFCN 进行了验证,并与一些SOTA方法进行了对比,结果表明 PFCN 具有更好的性能。

四、感悟

对于一个实验,我们往往追求的是高准确率,然而实际应用过程中难免会出现一些非理想状态的场景。因此一个成熟、稳健能够落地的方法更需要考虑它的鲁棒性以及是否能够应对多种场景。
深度学习技术与多模态技术正是解决上述问题的主流技术,仍然需要我们多加探索研究。


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: