该论文发表于Association for the Advancement of Artificial Intelligence 2024(CCF-A 人工智能顶级会议),题目为《SleepFM: Multi-modal Representation Learning for Sleep across ECG, EEG and Respiratory Signals》。
斯坦福大学生物医学数据科学系Rahul Thapa为第一作者和通讯作者。
论文链接:
https://openreview.net/forum?id=cDXtscWCKC
论文概要
睡眠是一个涉及多种生理信号的复杂过程,包括脑电图(EEG)、心电图(ECG)和呼吸信号等多种模态。现有的睡眠研究方法大多依赖有标签的单一任务数据,难以充分利用多导睡眠图(PSG)中丰富的跨模态生理信息。此外,睡眠数据的标注成本高昂,专家标注耗时耗力,限制了大规模监督学习方法的应用。如何从海量的多模态睡眠数据中学习到有效的通用表征,是当前睡眠医学研究面临的关键问题。
为了解决这些问题,本文提出了 SleepFM——首个基于多模态对比学习的睡眠基础模型。SleepFM 利用来自超过 14,000 名参与者的多导睡眠图数据(总计超过 100,000 小时),通过对比学习框架将 EEG、ECG 和呼吸信号三种模态的表征统一到共享的潜在空间中。本文提出了两种对比学习策略:成对对比学习(Pairwise CL)和留一法对比学习(Leave-One-Out CL)。在下游任务评估中,基于 SleepFM 学习到的嵌入向量训练的逻辑回归模型,在睡眠分期任务中达到宏平均 AUPRC 0.69,在呼吸暂停检测中达到 AUPRC 0.71,显著优于端到端训练的 CNN 基线模型(睡眠分期 AUPRC 0.579,呼吸暂停检测 AUPRC 0.56)。该研究证实了多模态睡眠建模的价值,并展示了 SleepFM 在小样本场景下的良好泛化能力。
研究背景
睡眠监测对于理解睡眠障碍、评估大脑健康、肺部功能和心脏健康具有重要意义。多导睡眠图(PSG)作为综合性的夜间睡眠检查手段,能够记录多种生理信号,包括脑电图(EEG)、眼电图(EOG)和心电图(ECG)。传统的 PSG 数据分析依赖于人工视觉检查,这种方法劳动密集且容易出错。近年来,监督深度学习方法在自动睡眠分期(尤其是呼吸暂停检测)方面展现出了一定潜力。然而,大多数方法依赖于特定任务的标注数据,很少利用 PSG 中多种模态所包含的完整生理动态信息。
与此同时,对比学习作为一种强大的表征学习技术,在放射学和病理学等领域取得了显著进展。研究者通过将医学影像与对应的医学报告配对进行对比学习,学习到了丰富的医学影像表征。然而,通过多模态对比学习将不同 PSG 通道配对来学习睡眠表征的研究仍然较少。虽然部分单模态对比学习方法已被应用于 ECG 数据,但这些方法无法在潜在空间中有效比较不同模态的信号,而这对于迁移学习至关重要。因此,如何利用多模态 PSG 数据通过对比学习构建统一的睡眠基础模型,是一个尚未被充分探索的研究方向。
研究方法
为了解决上述问题,本文提出了 SleepFM,一个通过多模态对比学习训练的睡眠基础模型。SleepFM 的核心思想是将来自同一时间段的不同模态的生理信号(EEG、ECG 和呼吸信号)在潜在空间中拉近,同时将不同时间段的信号推远,从而学习到跨模态的统一表征。整体框架如图 1 所示,主要包含数据预处理、嵌入模型设计和多模态对比学习三个关键部分。

Figure 1:多模态 PSG 对比学习预训练框架概览图。内容为:左侧是原始睡眠数据(EEG/ECG/呼吸三种模态),分别通过各自的 CNN 编码器生成嵌入向量;右侧展示了成对对比学习(Pairwise)和留一法对比学习(Leave-One-Out)两种训练方式的示意图。
(1) 数据预处理
本文使用的数据来自美国一家睡眠诊所自 1999 年起的 PSG 记录,包含 14,068 条记录,每条记录涵盖约 8 小时的睡眠数据。数据集根据三种主要模态(呼吸信号、EEG 和 ECG)进行筛选,分别包含 7、10 和 2 个通道。所有总睡眠时长被转换为 30 秒的 epoch,数据重采样至 256 Hz。标注标签由专业睡眠技师标注,包括:清醒(Wake)、Stage 1、Stage 2、Stage 3、REM 和睡眠呼吸暂停(Sleep Apnea)。为防止数据泄漏,数据集按照患者级别划分为预训练集(11,261 名参与者)、训练集(1,265 名)、验证集(141 名)和测试集(1,401 名)。
(2) 嵌入模型
SleepFM 使用卷积神经网络(CNN)分别从呼吸、EEG 和 ECG 通道生成嵌入向量。针对三种不同的模态,分别设计了三个独立的编码器模型,主要差异在于输入层的通道数不同(EEG 为 10 通道,ECG 为 2 通道,呼吸信号为 7 通道)。这些嵌入模型的架构基于 MobileNetV2 和 EfficientNet 的轻量化设计,首先使用空洞卷积(atrous convolution)提取特征,随后通过多通道一维卷积层处理。模型层数与 EfficientNet 的原始设计一致,但参数量大幅削减至原始架构的不到 1/10,以优化运行效率和降低复杂度。在空洞卷积层之后,模型采用了残差结构,将输入和输出瓶颈层通过扩展层相连接。
(3) 多模态对比学习
本文探索了两种对比学习框架来学习跨模态的联合表征:成对对比学习(Pairwise CL)和留一法对比学习(Leave-One-Out CL)。核心思想是将时间对齐的 30 秒片段中不同模态的正样本嵌入在潜在空间中拉近,同时将负样本推远。
在成对对比学习中,对所有模态对(EEG-ECG、EEG-呼吸、ECG-呼吸)构建对比预测任务。对于来自模态 i 的嵌入 x_i 和来自模态 j 的嵌入 x_j,使用对比损失鼓励正样本对之间的一致性,同时抑制负样本对之间的一致性。最终的损失函数为所有模态对的成对对比损失之和。
在留一法对比学习中,对于每个模态 i,通过对其余模态的嵌入求平均来构建一个"留一"表征 x_≠i,然后在模态 i 的嵌入与该留一表征之间应用对比损失。这种方法使得模型能够从更全局的视角学习模态之间的关系。
实验结果
本文在多个任务上对 SleepFM 进行了全面评估,包括跨模态检索、睡眠分期和呼吸暂停检测,并与端到端训练的 CNN 基线模型进行了对比。
(1) 跨模态检索分析
检索评估结果表明,SleepFM 的性能较基线指标有显著提升。模型在 Recall@10 指标上实现了超过 500 至 7000 倍的提升(基线随机 Recall@10 = 0.0001)。在成对对比学习中,ECG 与 EEG 之间的检索 Recall@10 达到 0.74-0.82,中位排名为 1-6;在留一法对比学习中,ECG 与 EEG 之间的 Recall@10 为 0.46-0.58。


成对对比学习在检索任务上总体优于留一法,这可能是因为检索评估直接映射了成对对比学习的训练方式。值得注意的是,呼吸信号与其他模态之间的检索性能相对较低,这可能是因为 EEG 和 ECG 都捕捉身体内的电信号活动,具有更高的相似性和更易识别的模式。
(2) 睡眠分期分类
在睡眠分期这一多分类任务中(包含 Wake、Stage 1、Stage 2、Stage 3 和 REM 五个类别),基于 SleepFM 预训练表征训练的逻辑回归模型在所有指标上均优于端到端训练的 CNN 基线模型。

留一法对比学习模型的宏平均 AUROC 达到 0.906,AUPRC 达到 0.685,显著优于成对对比学习模型(AUROC 0.876,AUPRC 0.608)和监督 CNN 基线(AUROC 0.842,AUPRC 0.579)。具体到各类别,留一法模型在 REM 分类上的 AUROC 达到 0.951,在 Wake 分类上达到 0.945,在 Stage 2 分类上的 AUPRC 达到 0.876。
(3) 呼吸暂停检测
在呼吸暂停检测这一二分类任务中,留一法对比学习模型取得了最优性能,AUROC 为 0.941,AUPRC 为 0.711,显著优于成对对比学习模型(AUROC 0.902,AUPRC 0.586)和监督 CNN 基线(AUROC 0.843,AUPRC 0.555)。考虑到呼吸暂停事件的低流行率(仅 1.7%),该模型在高不平衡数据上的表现尤为突出。

(4) 少样本评估
本文在少样本场景下(从 k=1 到完整训练集 1265 名参与者逐步增加训练数据量)对模型进行了评估。结果如图2显示,在所有少样本设置下,SleepFM 预训练模型均显著优于监督 CNN 基线模型,在睡眠分期和呼吸暂停分类任务上均表现出色。留一法对比学习模型在所有样本量下均显著优于成对对比学习模型,尤其在呼吸暂停分类任务中优势更为明显。这一结果表明,SleepFM 在标注数据有限的实际临床场景中具有很好的应用前景。

结论
本文提出了 SleepFM——首个基于多模态对比学习的睡眠基础模型,通过整合 EEG、ECG 和呼吸信号三种生理模态,实现了对睡眠相关表征的统一建模。该方法的核心创新在于利用对比学习框架,将来自同一时间段的不同模态的生理信号在潜在空间中对齐,从而学习到具有跨模态一致性的高质量表征。本文提出的两种对比学习策略——成对对比学习和留一法对比学习——各有优势:成对对比学习在检索任务上表现更优,而留一法对比学习在所有下游分类任务中显著优于成对对比学习。
在来自超过 14,000 名参与者的多导睡眠图数据集上的实验结果表明,SleepFM 在跨模态检索、睡眠分期和呼吸暂停检测等多个任务上均取得了优异的性能。基于 SleepFM 学习到的表征训练的逻辑回归模型,在睡眠分期任务中宏平均 AUPRC 达到 0.69,在呼吸暂停检测中 AUPRC 达到 0.71,均显著优于端到端训练的 CNN 基线模型。特别是在少样本评估场景下,SleepFM 展现出了良好的泛化能力,证明了该方法在标注数据有限的临床环境中的实际应用价值。该研究为睡眠医学中的多模态生理信号分析提供了一种有效的基础模型范式,为未来的睡眠研究和临床应用奠定了重要基础。
撰稿人:方旭
审稿人:王斐