
该论文发表于Association for Computational Linguistics
(ACL) 2025,题目为《MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis》。
加州大学圣塔芭芭拉分校的Daniel Rose为此文第一作者。
论文链接:https://aclanthology.org/2025.acl-long.677.pdf
鉴别诊断(DDx) 是临床决策中一项基础却复杂的核心环节:医生会依据患者症状、既往病史及医学专业知识,迭代完善并排序潜在疑似疾病列表。尽管大语言模型(LLM)的最新研究进展,已在辅助鉴别诊断方面展现出应用潜力,但现有研究方案仍存在明显短板:仅基于单一数据集做评测、各模块孤立优化、对患者病历信息默认理想化完整、仅支持单次诊断推理,无法迭代问诊。
论文提出模块化可解释鉴别诊断智能体框架 MEDDxAgent,面向交互式鉴别诊断场景设计,其诊断推理过程依托迭代式学习逐步推演,而非默认一开始就能获取完整患者病历。
MEDDxAgent 包含三大模块化组件:(1) 调度控制器(DDxDriver);(2) 病史采集模拟器;(3) 分别负责知识检索与诊断策略制定的两个专用智能体。为实现稳健评测,作者构建了一套覆盖呼吸系统疾病、皮肤病及罕见病的综合性鉴别诊断基准数据集。通过对单轮诊断方法进行对比分析,论文证实:在初始无法获取完整患者病历的真实场景下,迭代式诊断优化至关重要。
鉴别诊断(DDx)是医学决策中至关重要的环节,医生会从多种潜在疾病中系统筛选出可能性最大的病症。在真实临床工作中,鉴别诊断必不可少,因为它能够应对诊断过程中存在的不确定性。
同时,鉴别诊断的实施难度极大:人类已知潜在疾病数量庞大、医学知识更新迭代迅速,且许多症状与既往病史特征可同时指向多种不同疾病。但真实临床病例表现复杂多变,因此近年研究开始尝试构建基于大语言模型(LLM) 的计算框架,用于优化辅助鉴别诊断流程。
尽管基于大语言模型的系统在智能辅助诊断方面展现出应用潜力,但现有方法仍存在多处明显局限:
医学相关研究过度依赖医学问答类基准数据集,无法真实还原实际鉴别诊断任务的复杂程度。
针对以上研究空白,论文提出模块化可解释鉴别诊断智能体框架 MEDDxAgent。

图1 MEDDxAgent 框架整体架构:该框架整合了中央调度器(DDxDriver)、病史采集模拟器以及两个专用智能体(知识检索、诊断策略)。框架遵循 ReAct 范式,即思考 — 行动 — 观测流程,支持串行推理与分步执行,并可在迭代学习过程中,对所有交互行为进行透明化日志记录。
论文提出的 MEDDxAgent 框架由中央调度器(DDxDriver)、病史采集模拟器,以及分别负责知识检索与诊断策略的两个专用诊断智能体共同组成。
模拟器与两个诊断智能体均仅与 DDxDriver 进行通信交互;DDxDriver 负责监控、存储、维护并实时更新患者信息与排序后的鉴别诊断疾病列表。
凭借这一核心中枢角色,DDxDriver 可统筹调度迭代反馈循环:利用各个智能体返回的观测信息,结合智能体指令,对后续的智能体调用过程进行优化与迭代完善。
(一) 病史采集模拟器(Simulator)
病史采集是鉴别诊断中至关重要的第一步,临床医生通过向患者询问症状、既往病史及生活方式相关因素,收集关键诊疗信息。
为模拟这种真实交互问诊场景,论文设计了病史采集模拟器。实验中作者采用双大语言模型对模拟器进行初始化构建:第一个大语言模型扮演患者,可读取完整患者病历;第二个大语言模型扮演医生,仅获取患者初始病历。
交互过程中,医生角色围绕诊断流程提出问诊问题,患者角色依据自身完整病历给出对应回答。对话会持续进行,直至完成预设问诊目标,或达到提前设定的终止条件(如最大提问轮次)。问诊对话结束后,完整对话记录会被转发至 DDxDriver 调度器。
(二) 知识检索智能体Knowledge Retrieval Agent
该智能体通过从科研文献、医学数据库、临床诊疗指南等外部数据源中检索相关医学知识,辅助诊断流程。
智能体被触发后,会接收由DDxDriver根据当前患者病历与初步鉴别诊断列表生成的检索查询。智能体从查询中提取核心医学概念,整理为结构化关键词,再在外部数据库中进行定向检索。
论文采用两大主要知识来源:维基百科与 PubMed。前者提供高权重词条的精简概述,后者可检索可全文获取文献的摘要内容。
(三) 诊断策略智能体Diagnosis Strategy Agent
该智能体负责依据DDxDriver整理好的信息,生成、迭代优化并排序各类疑似诊断结果。
诊断策略智能体提供两种可选用的工作模式:第一种是零样本模式:大语言模型仅依靠当前患者的病历信息,直接预测最有可能的诊断结果。该方式流程简单,但面对复杂病症或罕见病时,诊断准确率有限。第二种是少样本模式:诊断策略智能体借助额外的相似病例作为参考来辅助预测,实现更贴合上下文场景的临床诊断推理。
(四) 中央调度器Orchestrator
论文将 DDxDriver 设计为 MEDDxAgent 框架中的中央协调枢纽。DDxDriver 可实现诊断智能体与基准数据集之间的模块化兼容,只需极少适配改造即可接入使用。
DDxDriver 采用 ReAct 范式:在每一轮流程中,DDxDriver 首先获取环境交互信息(输入 / 输出),以及模拟器和各智能体上一轮运行的返回结果(如有观测信息);随后基于现有临床证据进行状态推理(思考),并依据当前患者病历状态,生成面向特定智能体的执行指令(行动)。它将指令下发至选定的模拟器或智能体并执行,再利用新获取的信息更新患者病历。
(五) 迭代学习机制
论文设计迭代学习机制,避免仅依赖单一诊断智能体或静态决策流程。本机制设置两种迭代模式:(1) 固定迭代、(2) 动态迭代。
固定迭代按固定顺序依次调度病史采集模拟器、知识检索智能体、诊断策略智能体循环运行,直至达到预设终止条件(如指定迭代轮次)。
与之相对,动态迭代不再受预设执行顺序限制,允许DDxDriver 在鉴别诊断过程中自适应动态调度。每一轮获得观测结果后,DDxDriver 会依据最新信息(更新后的患者病历、医学文献资料、当前预测的鉴别诊断列表),自主推理下一步应该调用哪个模块:病史采集模拟器、知识检索智能体 或 诊断策略智能体。
这种设计实现了灵活决策,让诊断流程能够随着新信息的不断补充而动态调整。迭代学习机制使MEDDxAgent 可以持续优化诊断结果,同时对自身推理过程提供透明、可追溯的解释。
(一) 数据集设置:
DDxPlus: 大规模结构化数据集,包含130 万例合成呼吸科患者病例,涵盖 49 种呼吸系统相关疾病。
iCraft-MD:包含 394 种皮肤病;该数据集在原有 Craft-MD 数据集静态皮肤科临床病例基础上,改造为交互式评测场景:系统初始只能获取部分患者信息,需要主动问诊、自行收集补充病情信息。
RareBench:在 DDxPlus 基础上进行扩充,新增 421 种罕见病。
(二) 评估指标:
1. 正确疾病的平均排名
用于衡量模型能否将真实诊断结果排在靠前位置。若真实诊断未进入模型预测的前10名,则统一将其排名记为11。
2. GTPA@k(真实病理准确率)
用于判断真实疾病标签是否出现在模型预测的前 k 个诊断结果中
3. 平均进展率(Δ Progress)
用于追踪真实疾病在鉴别诊断列表中的排名变化,对于每一例患者样本i,先计算其在N 轮迭代诊断中排名的进步值并取平均,再对全部M 例患者做整体聚合统计。该指标可以量化评估系统在多轮迭代中逐步优化、收敛至正确诊断的效果。
(三) 模型和任务
1. LLM模型选择:
论文在全部实验任务上对 GPT-4o、Llama3.1-70B 与 Llama3.1-8B三类大模型开展评测,实现不同参数量规模大语言模型的横向对比。
2. 评测方案:
(1) 单智能体单独优化评测;
在单轮推理场景下,分别评测知识检索、诊断策略两大智能体。该方式可以排除信息不完整带来的干扰因素,独立验证各智能体自身推理机制的有效性。
(2) 交互式鉴别诊断评测;
在交互式鉴别诊断场景下评估 MEDDxAgent 整体性能,并与单轮诊断智能体、病史采集模拟器进行对比。交互式鉴别诊断是更具挑战性、也更贴近真实临床的场景:模型仅能获取患者初始信息,无法拿到完整的症状与既往病史列表。
3. 超参数和实验设置:
对于知识检索智能体,论文限定每次检索查询最多使用3 个医学关键词。
动态少样本部分采用 BioClinicalBERT(BERT)与 BGE-BASE-EN-V1.5(BAII)具体采用归一化嵌入向量的 L2 距离计算相似度,效果与余弦相似度设置相近。
在病史采集模拟器部分,论文构建迭代问诊环境,4. 分别设置最大提问轮次为 5、10、15 进行评测。
论文设置迭代次数为 1~3 轮,每轮固定 5 次问诊提问。
(四) 关键实验与结果分析:
1. 单智能体最优参数调优实验
在将知识检索智能体与诊断策略智能体融入迭代实验场景之前,沿用已有研究的实验设定,向模型提供完整患者病历。

表1 上图为非交互式场景下知识检索智能体(上半部分)与诊断策略智能体(下半部分)的实验结果。‡ 论文仅列出少样本(标准少样本、Dyn_BAII 动态少样本)结果,原因是该方案性能始终优于 Dyn_BERT 方法,且所有模型均呈现相似变化趋势。
结果分析:
在知识检索智能体中,PubMed 整体表现略优于维基百科;在需要复杂疾病专业信息的 RareBench 数据集上,这一优势尤为明显。
对于诊断策略智能体,最优配置随数据集不同而存在差异:在 DDxPlus 与 RareBench 上,基于 BAII 嵌入向量的动态少样本效果最佳,这是因为相似病例样例能够为疑似疾病提供可靠的上下文参考依据。而在 iCraft-MD 数据集上,零样本思维链(CoT) 更具优势,可针对复杂临床病例开展结构化推理。
对 iCraft-MD 而言,少样本学习往往会降低诊断性能,原因是该数据集中每例临床病例特征差异极大,引入额外参考样例反而会带入噪声干扰。
基于以上实验结论,论文为后续迭代实验场景选定如下配置:知识检索智能体统一采用 PubMed;
2. 交互式鉴别诊断实验
交互式鉴别诊断实验进一步评测更具挑战性进一步评测更具挑战性的交互式鉴别诊断任务:模型初始仅拥有有限患者信息,由病史采集模拟器构建完整交互实验环境。

表2 三大数据集在无完整患者病历条件下的交互式实验性能;其中 KR 代表知识检索智能体,DS 代表诊断策略智能体;n 为病史采集模拟器的问诊轮次;MEDDx 为同时结合 KR 与 DS 的模型配置。
结果分析:
当 n=0 时,模拟器未通过问诊获取任何额外患者信息。以 GPT-4o 在 RareBench 数据集上的结果为例:知识检索智能体(KR)的 GTPA@1 由 0.45 降至 0.07;诊断策略智能体(零样本设置)的 GTPA@1 由 0.46 降至 0.11。该基线结果表明:以往在完备病历条件下得到的评测结论,无法适用于初始信息匮乏的交互式场景。
当交互轮次增至 n=5 时,知识检索智能体与诊断策略智能体的诊断性能均得到大幅提升。这一结果印证了病史采集对于提升诊断准确率至关重要。
在 DDxPlus 数据集上,GPT-4o 的 GTPA@1 从 0.69 提升至 0.86,Llama3.1-70B 从 0.54 提升至 0.71。
对于 Llama3.1-8B 小模型,在 DDxPlus 数据集上仍保持性能提升趋势,但在 iCraft-MD 与 RareBench 数据集上表现不稳定,凸显了模型参数量规模对诊断效果的影响。
平均进展率 ΔProgress 始终为正值,说明 MEDDxAgent 能够通过多轮迭代,持续抬高真实疾病在诊断列表中的排名。平均进展率在不同数据集、不同模型上表现各异,为 MEDDxAgent 的诊断性能提升提供了可解释依据。
整体实验结果表明:MEDDxAgent 能够在高难度、贴近真实临床的交互式鉴别诊断场景中稳定有效运行。
现有的自动鉴别诊断方法存在诸多局限:要么仅采用单一数据集开展评估,要么假定患者病历信息完整可全量获取,要么只针对孤立的诊断模块做局部优化,或是仅进行单次一次性诊断。
论文提出 MEDDxAgent,这是一个具备模块化、可解释性的框架,通过迭代学习方式提升自动鉴别诊断能力。MEDDxAgent 整合了病史采集模拟器、两大智能体(知识检索智能体、诊断策略智能体)以及调度控制器 DDxDriver,用以应对更具挑战性、更贴近真实临床的交互式鉴别诊断场景 —— 这类场景下初始患者病历并不完整。。该框架采用模块化设计,可对最优智能体组合配置进行系统性评测;同时通过中间过程日志记录与全新的平均进展率指标,为模型推理过程提供关键的可解释性与透明性
实验结果表明:交互式鉴别诊断的难度远高于传统单轮诊断。MEDDxAgent 能够迭代修正诊断预测结果,性能显著优于简易的单轮诊断方法。希望该框架能够推动相关研究持续进步,助力研发出适应性更强、效果更优的自动鉴别诊断模型。
撰稿人:姚刚
审稿人:何乐为