团队何乐为课题组3篇大模型系统研究成果被CCF-A类会议WWW和ACL录用

脑机接口与混合智能研究小组

更多动态

10113

2026-04-10

近日，脑机团队的何乐为课题组在人工智能系统领域取得重要突破，3项研究成果分别被CCF-A类国际顶会WWW 2026（ACM Web Conference）和ACL 2026（Association for Computational Linguistics）主会录用。三项工作围绕"大模型智能系统的效率与可靠性"这一核心主题，分别在多智能体动态编排、推理过程加速、GUI智能体评测三个关键方向提出创新解决方案，展现了团队在前沿AI系统研究中的深厚积累。

成果1：WWW 2026 (Oral) | 难度感知多智能体编排框架 DAAO

课题组成员苏金伟（2024级研究生）的研究成果“Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows”已被CCF-A类会议ACM Web Conference 2026（WWW 26）主会录用（Oral）。该研究提出了一种名为DAAO的难度感知多智能体编排框架，能够根据每个查询的复杂程度动态生成定制化的多智能体工作流，在显著提升任务性能的同时大幅降低推理成本。

近年来，基于大语言模型（LLM）的多智能体系统在问答、代码生成、数学推理、数据分析等复杂任务中展现出强大的能力。通过组织多个LLM协同工作，这类系统能够超越单一模型的认知局限，表现出类似人类协作的集体智能。然而，现有大多数多智能体框架仍存在两个关键瓶颈：其一，它们通常采用固定或任务级别的工作流，对简单查询过度处理、浪费资源，而对复杂查询处理能力不足，无法适应真实世界中查询难度差异巨大的实际情况；其二，多数框架依赖单一的LLM backbone，忽视了不同模型在性能与成本之间的互补优势。如何让系统自主感知每个查询的难易程度，并据此动态调整工作流的复杂度和资源分配，成为当前多智能体系统研究中的核心挑战。

为解决上述挑战，本研究提出了名为DAAO的难度感知多智能体编排框架。该框架的核心创新在于首次将查询难度作为可学习的策略信号，显式地引导工作流的生成。如上图所示，DAAO包含三个相互协同的模块：基于变分自编码器的查询难度估计器、模块化操作符分配器，以及成本与性能感知的LLM路由器。

难度估计器将输入查询编码为潜在难度表征，并输出一个介于0到1之间的可解释难度分数。该分数通过工作流执行成功与否的反馈信号进行自调整：若当前工作流成功解决查询，系统会略微降低该查询的预估难度，促使后续采用更简单的工作流；若执行失败，则提高难度分数，以触发更复杂、更强大的工作流。操作符分配器根据难度分数动态决定工作流的深度（层数）以及每一层中应该激活哪些操作符（如链式思考、多智能体辩论、自一致性、自我修正、集成投票等）。LLM路由器则进一步为每个选中的操作符分配最合适的大语言模型，在多个候选模型（包括GPT-4o-mini、Gemini-1.5-flash、Llama-3.1-70B、Qwen-2-72B等）之间进行智能路由，从而在保证推理能力的前提下控制成本。三者共同构成一个查询专属的有向无环图工作流，实现了“因问施策”的自适应推理。

研究团队在六个广泛使用的公开基准上对DAAO进行了全面评估，涵盖数学推理（GSM8K、MATH）、代码生成（HumanEval、MBPP）、多任务语言理解（MMLU）以及复杂工具使用（GAIA）。实验结果表明，DAAO在所有基准上均超越了现有的自动化多智能体系统与LLM路由方法。与最先进的自动化工作流方法相比，DAAO的平均准确率提升了3.5%至15.2%；与最新的LLM路由器相比，准确率提升了3.2%至10.2%。在极具挑战性的GAIA基准上，DAAO的平均得分达到25.97%，分别超越现有方法AFlow和MaAS达17.97个百分点和8.33个百分点。尤为值得一提的是，在MATH基准上，DAAO以55.37%的准确率取得最佳成绩，同时其训练成本仅为对比方法的10.4%，推理成本仅为16.3%，展现了卓越的成本效益。此外，跨领域训练实验表明，DAAO具有良好的归纳迁移能力，在数学与代码生成领域之间联合优化能够小幅提升各领域的表现，且能够无缝适配新加入的未见过的LLM。

本研究提出了一个创新的大语言模型多智能体编排框架DAAO，首次将查询难度估计、动态工作流生成与异构LLM路由融为一体，实现了性能与成本之间的自适应平衡。通过在六个基准上的严格实验，DAAO不仅显著超越了现有方法，还大幅降低了计算开销，证明了难度感知、模块化编排在构建可扩展且高效的LLM智能体系统中的核心价值。该工作为未来多智能体系统的自动化设计提供了新的思路，也为实际应用中应对不同难度、不同领域的用户查询设立了一个兼具高性能与低成本的标杆。研究团队已将相关代码与数据集开放，供学界与业界进一步使用与拓展。

成果2：ACL 2026 | 双信号自适应推理加速 Shortcut Decoding

课题组成员李泽远（2023级研究生）的研究成果“Shortcut Decoding: Accelerating Chain-of-Thought Reasoning via Dual-Signal Adaptive Control” 已被CCF-A类会议Association for Computational Linguistics 2026（ACL 26）主会录用。该研究旨在解决大语言模型在链式思维推理过程中存在的“过度思考”与计算冗余问题，提出了一种无需重新训练的高效推理加速框架。

链式思维提示技术显著增强了大语言模型的复杂推理能力，使其能够通过逐步分解问题来得出正确答案。然而，近年来研究者发现，大语言模型在生成显式推理文本时普遍存在“过度思考”现象：模型在内部隐藏状态中早已收敛到正确结论，却仍然继续生成大量冗余、重复甚至自我矛盾的推理步骤。这不仅造成了严重的计算资源浪费，还可能导致模型从正确答案偏离，降低最终输出的可靠性。现有加速方法主要分为两类：一是依赖系统级优化或模型压缩，往往需要昂贵的重新训练；二是基于启发式的提前终止策略，例如监测输出熵，但这类方法容易陷入“自信错误”陷阱——模型虽然低熵、高度确定，却可能已经走上错误的推理路径。因此，如何在保证推理正确性的前提下动态、自适应地剪除冗余步骤，成为大语言模型推理效率优化的关键挑战。

为解决上述挑战，本研究提出了一种名为Shortcut Decoding的推理加速框架，如上图所示。该框架的核心思想源于一个关键实证发现：大语言模型的内部隐藏状态往往比其显式生成的文本更早地“想通”正确答案。基于此，研究团队设计了一个双信号自适应控制器，在推理过程中实时监测两类互补信号。第一类信号是内部置信度得分，由一个轻量级多层感知机探针从模型的隐藏状态中提取，用于预测当前推理路径是否已足够正确。第二类信号是步骤级输出熵，用于衡量模型在生成下一词时的确定性程度。两类信号协同工作：当内部探针得分极高或输出熵极低时，控制器触发快速退出路径；当探针得分高但熵值中等时，则启动稳定性验证路径，连续监测多个步骤确认收敛后再退出；若两类信号均不满足，则允许模型继续推理。该框架无需修改基础模型参数，可即插即用地应用于现有大语言模型。

研究团队在多个数学推理基准测试上对Shortcut Decoding进行了全面评估，包括GSM8K、MATH-500以及AIME 2024/2025竞赛级数据集。实验结果表明，该方法在保持甚至提升最终答案准确率的同时，平均减少了约35%的令牌使用量。特别值得注意的是，在MATH-500数据集上，使用DeepSeek-R1-Distill-Qwen-7B模型时，该方法在压缩近50%推理步骤的情况下，将准确率从90.8%提升至91.2%。这一反直觉的准确率提升源于对冗余后期推理的有效剪除，避免了模型在过度自我修正中发生逻辑漂移。与现有的训练无关提前停止方法（如DEER、Dynasor）相比，Shortcut Decoding在准确率和压缩比两个维度上均表现更优。进一步的错误归因分析显示，在完整链式思维推理失败案例中，约60%是由“过度思考”导致——即模型在已经得出正确中间结论后，因冗余生成或错误修正而输出错误答案。这进一步印证了适时终止推理对于提升最终输出质量的重要性。

本研究提出了Shortcut Decoding，一个基于双信号自适应控制的高效推理加速框架。该框架通过融合内部隐藏状态探针与外部输出熵信号，精准检测“推理完成点”，在显著降低计算开销的同时维护甚至增强了推理可靠性。实验结果揭示了当前大语言模型在链式思维推理中普遍存在的“想得比说得快”现象，以及过度思考对最终答案准确率的负面影响。Shortcut Decoding不仅为缓解推理效率瓶颈提供了一种轻量、有效的解决方案，也为未来大语言模型推理机制的设计指明了新方向：与其强制模型生成完整显式推理链，不如学会在恰当的时机“放手”，让模型直接输出其内心已经收敛的答案。

成果3：ACL 2026 | 可验证GUI评测基准 NaturalGAIA

课题组成员郑梓瀚（2024级研究生）、崔天乐（2024级研究生）、王陶然（2025级研究生）、王凤涛（2025级研究生）的研究成果“NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks”已被CCF-A类会议Association for Computational Linguistics 2026（ACL 26）主会录用。该研究针对图形用户界面（GUI）智能体在真实场景下的评估困境，提出了一个可验证的评测基准NaturalGAIA及高效的分层协作框架LightManus-Jarvis。

近年来，大语言模型驱动的GUI智能体发展迅速，然而如何准确评估其在复杂、长序列、跨应用任务中的真实表现成为关键挑战。现有评测面临“评估-真实困境”：一方面，真实场景基准如OSWorld和RealWebAssist因缺乏确定性真值，依赖不稳定的大模型评判或人工验证，难以精确衡量推理与执行之间的差距；另一方面，传统静态基准采用简化、去上下文的指令，无法模拟人类意图中的认知非线性、冗余信息和上下文依赖，导致任务成功率被高估。此外，主流端到端视觉模型在长时程任务中容易产生语义漂移和“坐标幻觉”，难以兼顾宏观规划的一致性与微观执行的精确性。

为解决上述挑战，本研究提出了NaturalGAIA——一个基于真实人类GUI交互意图的可验证评测基准，以及LightManus-Jarvis——一个“宏观规划-微观执行”的分层协作框架。LightManus-Jarvis执行NaturalGAIA任务的过程如上图所示。

NaturalGAIA基准的核心创新在于将逻辑因果路径与自然语言叙述解耦。具体而言，研究者基于知识图谱（如Wikidata）定义确定性的因果路径，每个原子任务都有可验证的真值；同时通过自然语言注入认知挑战，包括非线性顺序、噪声过滤和上下文依赖参数解析，确保任务既有真实模糊性又有严谨的可验证性。该基准覆盖了276个任务，跨越25种真实应用（包括Spotify、IMDb、Google Maps、Wikipedia等），分为基础、中级、高级三个难度等级，其中高级任务最长包含七个原子步骤，需在多至七个应用间切换。为了全面评估智能体性能，研究团队设计了三层评估体系：难度加权路径成功率（WPSR）综合任务复杂度进行加权评估；细粒度遍历指标（MATCR和p-ATSR）量化原子任务的完成比例及长序列后段表现；错误归因分析则将失败原因细分为知识缺失、感知错误、操作错误、规划与推理错误等类型。

与此同时，研究团队提出了LightManus-Jarvis分层协作框架。在宏观层面，LightManus负责语义解析、任务拓扑生成、跨应用调度以及上下文演化机制，通过“执行-感知-演化”闭环动态更新后续任务的语义描述，有效抑制长序列执行中的语义漂移。在微观层面，Jarvis作为高精度Android执行内核，采用混合视觉-结构感知策略，融合截图与Android Accessibility树信息，利用UID锚定元素消除坐标幻觉，并强制链式推理生成原子操作（如点击、输入、滑动等），显著提升了操作的确定性。

研究团队在NaturalGAIA上对多个主流模型（包括Claude-Sonnet-4.5、Gemini系列、GPT系列等）进行了全面评测。实验结果表明，LightManus-Jarvis（驱动Claude-Sonnet-4.5）的加权路径成功率达到45.6%，显著优于PC-Agent的13.1%和Mobile-Agent-e的21.1%，尤其在高级长时程任务上优势明显。在效率方面，相比Mobile-Agent-e，LightManus-Jarvis减少了约75%的token消耗和76%的执行时间，且执行步数相近，证明效率提升源于架构优化而非路径简化。错误归因分析进一步揭示，即使是最先进的Claude-Sonnet-4.5模型，其规划与推理错误仍占2.9%，而操作错误和感知错误在纯视觉方案中尤为突出。Jarvis的混合感知机制将感知错误从7.1%降至3.3%，操作错误从25.6%降至20.0%，验证了分层框架的有效性。

本研究提出了NaturalGAIA基准与LightManus-Jarvis框架，系统性地缓解了GUI智能体评估中的“评估-真实困境”。NaturalGAIA通过解耦逻辑与语言、引入可验证的因果路径和多层评估体系，为长时程、跨应用GUI任务提供了严谨的评测平台。LightManus-Jarvis通过宏观规划与微观执行的分层协作，显著提升了复杂任务的鲁棒性和效率。实验结果清晰地揭示了当前顶尖模型在长链条规划、上下文记忆和精确执行方面仍存在的普遍短板。NaturalGAIA与LightManus-Jarvis的公开将为学界和业界提供宝贵的评测资源与可复现的框架设计，推动更鲁棒、更贴近真实用户需求的自主智能体发展。

登录用户可以查看和发表评论，请前往登录或注册。