近日,脑机团队的何乐为课题组在人工智能系统领域取得重要突破,3项研究成果分别被CCF-A类国际顶会WWW 2026(ACM Web Conference)和ACL 2026(Association for Computational Linguistics)主会录用。三项工作围绕"大模型智能系统的效率与可靠性"这一核心主题,分别在多智能体动态编排、推理过程加速、GUI智能体评测三个关键方向提出创新解决方案,展现了团队在前沿AI系统研究中的深厚积累。
成果1:WWW 2026 (Oral) | 难度感知多智能体编排框架 DAAO
课题组成员苏金伟(2024级研究生)的研究成果“Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows”已被CCF-A类会议ACM Web Conference 2026(WWW 26)主会录用(Oral)。该研究提出了一种名为DAAO的难度感知多智能体编排框架,能够根据每个查询的复杂程度动态生成定制化的多智能体工作流,在显著提升任务性能的同时大幅降低推理成本。
近年来,基于大语言模型(LLM)的多智能体系统在问答、代码生成、数学推理、数据分析等复杂任务中展现出强大的能力。通过组织多个LLM协同工作,这类系统能够超越单一模型的认知局限,表现出类似人类协作的集体智能。然而,现有大多数多智能体框架仍存在两个关键瓶颈:其一,它们通常采用固定或任务级别的工作流,对简单查询过度处理、浪费资源,而对复杂查询处理能力不足,无法适应真实世界中查询难度差异巨大的实际情况;其二,多数框架依赖单一的LLM backbone,忽视了不同模型在性能与成本之间的互补优势。如何让系统自主感知每个查询的难易程度,并据此动态调整工作流的复杂度和资源分配,成为当前多智能体系统研究中的核心挑战。

为解决上述挑战,本研究提出了名为DAAO的难度感知多智能体编排框架。该框架的核心创新在于首次将查询难度作为可学习的策略信号,显式地引导工作流的生成。如上图所示,DAAO包含三个相互协同的模块:基于变分自编码器的查询难度估计器、模块化操作符分配器,以及成本与性能感知的LLM路由器。
难度估计器将输入查询编码为潜在难度表征,并输出一个介于0到1之间的可解释难度分数。该分数通过工作流执行成功与否的反馈信号进行自调整:若当前工作流成功解决查询,系统会略微降低该查询的预估难度,促使后续采用更简单的工作流;若执行失败,则提高难度分数,以触发更复杂、更强大的工作流。操作符分配器根据难度分数动态决定工作流的深度(层数)以及每一层中应该激活哪些操作符(如链式思考、多智能体辩论、自一致性、自我修正、集成投票等)。LLM路由器则进一步为每个选中的操作符分配最合适的大语言模型,在多个候选模型(包括GPT-4o-mini、Gemini-1.5-flash、Llama-3.1-70B、Qwen-2-72B等)之间进行智能路由,从而在保证推理能力的前提下控制成本。三者共同构成一个查询专属的有向无环图工作流,实现了“因问施策”的自适应推理。
研究团队在六个广泛使用的公开基准上对DAAO进行了全面评估,涵盖数学推理(GSM8K、MATH)、代码生成(HumanEval、MBPP)、多任务语言理解(MMLU)以及复杂工具使用(GAIA)。实验结果表明,DAAO在所有基准上均超越了现有的自动化多智能体系统与LLM路由方法。与最先进的自动化工作流方法相比,DAAO的平均准确率提升了3.5%至15.2%;与最新的LLM路由器相比,准确率提升了3.2%至10.2%。在极具挑战性的GAIA基准上,DAAO的平均得分达到25.97%,分别超越现有方法AFlow和MaAS达17.97个百分点和8.33个百分点。尤为值得一提的是,在MATH基准上,DAAO以55.37%的准确率取得最佳成绩,同时其训练成本仅为对比方法的10.4%,推理成本仅为16.3%,展现了卓越的成本效益。此外,跨领域训练实验表明,DAAO具有良好的归纳迁移能力,在数学与代码生成领域之间联合优化能够小幅提升各领域的表现,且能够无缝适配新加入的未见过的LLM。

本研究提出了一个创新的大语言模型多智能体编排框架DAAO,首次将查询难度估计、动态工作流生成与异构LLM路由融为一体,实现了性能与成本之间的自适应平衡。通过在六个基准上的严格实验,DAAO不仅显著超越了现有方法,还大幅降低了计算开销,证明了难度感知、模块化编排在构建可扩展且高效的LLM智能体系统中的核心价值。该工作为未来多智能体系统的自动化设计提供了新的思路,也为实际应用中应对不同难度、不同领域的用户查询设立了一个兼具高性能与低成本的标杆。研究团队已将相关代码与数据集开放,供学界与业界进一步使用与拓展。
成果2:ACL 2026 | 双信号自适应推理加速 Shortcut Decoding
课题组成员李泽远(2023级研究生)的研究成果“Shortcut Decoding: Accelerating Chain-of-Thought Reasoning via Dual-Signal Adaptive Control” 已被CCF-A类会议Association for Computational Linguistics 2026(ACL 26)主会录用。该研究旨在解决大语言模型在链式思维推理过程中存在的“过度思考”与计算冗余问题,提出了一种无需重新训练的高效推理加速框架。
链式思维提示技术显著增强了大语言模型的复杂推理能力,使其能够通过逐步分解问题来得出正确答案。然而,近年来研究者发现,大语言模型在生成显式推理文本时普遍存在“过度思考”现象:模型在内部隐藏状态中早已收敛到正确结论,却仍然继续生成大量冗余、重复甚至自我矛盾的推理步骤。这不仅造成了严重的计算资源浪费,还可能导致模型从正确答案偏离,降低最终输出的可靠性。现有加速方法主要分为两类:一是依赖系统级优化或模型压缩,往往需要昂贵的重新训练;二是基于启发式的提前终止策略,例如监测输出熵,但这类方法容易陷入“自信错误”陷阱——模型虽然低熵、高度确定,却可能已经走上错误的推理路径。因此,如何在保证推理正确性的前提下动态、自适应地剪除冗余步骤,成为大语言模型推理效率优化的关键挑战。

为解决上述挑战,本研究提出了一种名为Shortcut Decoding的推理加速框架,如上图所示。该框架的核心思想源于一个关键实证发现:大语言模型的内部隐藏状态往往比其显式生成的文本更早地“想通”正确答案。基于此,研究团队设计了一个双信号自适应控制器,在推理过程中实时监测两类互补信号。第一类信号是内部置信度得分,由一个轻量级多层感知机探针从模型的隐藏状态中提取,用于预测当前推理路径是否已足够正确。第二类信号是步骤级输出熵,用于衡量模型在生成下一词时的确定性程度。两类信号协同工作:当内部探针得分极高或输出熵极低时,控制器触发快速退出路径;当探针得分高但熵值中等时,则启动稳定性验证路径,连续监测多个步骤确认收敛后再退出;若两类信号均不满足,则允许模型继续推理。该框架无需修改基础模型参数,可即插即用地应用于现有大语言模型。
研究团队在多个数学推理基准测试上对Shortcut Decoding进行了全面评估,包括GSM8K、MATH-500以及AIME 2024/2025竞赛级数据集。实验结果表明,该方法在保持甚至提升最终答案准确率的同时,平均减少了约35%的令牌使用量。特别值得注意的是,在MATH-500数据集上,使用DeepSeek-R1-Distill-Qwen-7B模型时,该方法在压缩近50%推理步骤的情况下,将准确率从90.8%提升至91.2%。这一反直觉的准确率提升源于对冗余后期推理的有效剪除,避免了模型在过度自我修正中发生逻辑漂移。与现有的训练无关提前停止方法(如DEER、Dynasor)相比,Shortcut Decoding在准确率和压缩比两个维度上均表现更优。进一步的错误归因分析显示,在完整链式思维推理失败案例中,约60%是由“过度思考”导致——即模型在已经得出正确中间结论后,因冗余生成或错误修正而输出错误答案。这进一步印证了适时终止推理对于提升最终输出质量的重要性。

本研究提出了Shortcut Decoding,一个基于双信号自适应控制的高效推理加速框架。该框架通过融合内部隐藏状态探针与外部输出熵信号,精准检测“推理完成点”,在显著降低计算开销的同时维护甚至增强了推理可靠性。实验结果揭示了当前大语言模型在链式思维推理中普遍存在的“想得比说得快”现象,以及过度思考对最终答案准确率的负面影响。Shortcut Decoding不仅为缓解推理效率瓶颈提供了一种轻量、有效的解决方案,也为未来大语言模型推理机制的设计指明了新方向:与其强制模型生成完整显式推理链,不如学会在恰当的时机“放手”,让模型直接输出其内心已经收敛的答案。
成果3:ACL 2026 | 可验证GUI评测基准 NaturalGAIA
课题组成员郑梓瀚(2024级研究生)、崔天乐(2024级研究生)、王陶然(2025级研究生)、王凤涛(2025级研究生)的研究成果“NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks”已被CCF-A类会议Association for Computational Linguistics 2026(ACL 26)主会录用。该研究针对图形用户界面(GUI)智能体在真实场景下的评估困境,提出了一个可验证的评测基准NaturalGAIA及高效的分层协作框架LightManus-Jarvis。
近年来,大语言模型驱动的GUI智能体发展迅速,然而如何准确评估其在复杂、长序列、跨应用任务中的真实表现成为关键挑战。现有评测面临“评估-真实困境”:一方面,真实场景基准如OSWorld和RealWebAssist因缺乏确定性真值,依赖不稳定的大模型评判或人工验证,难以精确衡量推理与执行之间的差距;另一方面,传统静态基准采用简化、去上下文的指令,无法模拟人类意图中的认知非线性、冗余信息和上下文依赖,导致任务成功率被高估。此外,主流端到端视觉模型在长时程任务中容易产生语义漂移和“坐标幻觉”,难以兼顾宏观规划的一致性与微观执行的精确性。

为解决上述挑战,本研究提出了NaturalGAIA——一个基于真实人类GUI交互意图的可验证评测基准,以及LightManus-Jarvis——一个“宏观规划-微观执行”的分层协作框架。LightManus-Jarvis执行NaturalGAIA任务的过程如上图所示。
NaturalGAIA基准的核心创新在于将逻辑因果路径与自然语言叙述解耦。具体而言,研究者基于知识图谱(如Wikidata)定义确定性的因果路径,每个原子任务都有可验证的真值;同时通过自然语言注入认知挑战,包括非线性顺序、噪声过滤和上下文依赖参数解析,确保任务既有真实模糊性又有严谨的可验证性。该基准覆盖了276个任务,跨越25种真实应用(包括Spotify、IMDb、Google Maps、Wikipedia等),分为基础、中级、高级三个难度等级,其中高级任务最长包含七个原子步骤,需在多至七个应用间切换。为了全面评估智能体性能,研究团队设计了三层评估体系:难度加权路径成功率(WPSR)综合任务复杂度进行加权评估;细粒度遍历指标(MATCR和p-ATSR)量化原子任务的完成比例及长序列后段表现;错误归因分析则将失败原因细分为知识缺失、感知错误、操作错误、规划与推理错误等类型。
与此同时,研究团队提出了LightManus-Jarvis分层协作框架。在宏观层面,LightManus负责语义解析、任务拓扑生成、跨应用调度以及上下文演化机制,通过“执行-感知-演化”闭环动态更新后续任务的语义描述,有效抑制长序列执行中的语义漂移。在微观层面,Jarvis作为高精度Android执行内核,采用混合视觉-结构感知策略,融合截图与Android Accessibility树信息,利用UID锚定元素消除坐标幻觉,并强制链式推理生成原子操作(如点击、输入、滑动等),显著提升了操作的确定性。
研究团队在NaturalGAIA上对多个主流模型(包括Claude-Sonnet-4.5、Gemini系列、GPT系列等)进行了全面评测。实验结果表明,LightManus-Jarvis(驱动Claude-Sonnet-4.5)的加权路径成功率达到45.6%,显著优于PC-Agent的13.1%和Mobile-Agent-e的21.1%,尤其在高级长时程任务上优势明显。在效率方面,相比Mobile-Agent-e,LightManus-Jarvis减少了约75%的token消耗和76%的执行时间,且执行步数相近,证明效率提升源于架构优化而非路径简化。错误归因分析进一步揭示,即使是最先进的Claude-Sonnet-4.5模型,其规划与推理错误仍占2.9%,而操作错误和感知错误在纯视觉方案中尤为突出。Jarvis的混合感知机制将感知错误从7.1%降至3.3%,操作错误从25.6%降至20.0%,验证了分层框架的有效性。

本研究提出了NaturalGAIA基准与LightManus-Jarvis框架,系统性地缓解了GUI智能体评估中的“评估-真实困境”。NaturalGAIA通过解耦逻辑与语言、引入可验证的因果路径和多层评估体系,为长时程、跨应用GUI任务提供了严谨的评测平台。LightManus-Jarvis通过宏观规划与微观执行的分层协作,显著提升了复杂任务的鲁棒性和效率。实验结果清晰地揭示了当前顶尖模型在长链条规划、上下文记忆和精确执行方面仍存在的普遍短板。NaturalGAIA与LightManus-Jarvis的公开将为学界和业界提供宝贵的评测资源与可复现的框架设计,推动更鲁棒、更贴近真实用户需求的自主智能体发展。