近日,团队成员郑梓瀚、崔天乐等在何乐为老师的指导下, 在 CCF - A 类会议 Association for Computational Linguistics(ACL 2025)主会发表了名为 “PlanningArena: A Modular Benchmark for Multidimensional Evaluation of Planning and Tool Learning” 的研究成果。该研究致力于为大语言模型(LLM)的规划与工具学习能力提供一个全面且多维度的评测基准。这一研究项目得到了国家自然科学基金、科技创新 2030 - “脑科学与类脑研究” 重大项目以及广东省基础与应用基础研究基金等多项基金的资助。
近年来,利用外部工具(如 APP 或 API)增强大语言模型(LLM)解决复杂问题的能力,已成为人工智能领域的研究热点。但科学、全面地评估 LLM 在模拟真实世界场景下的规划与工具使用能力,依旧面临诸多挑战。现有评测基准普遍存在以下局限性:一是场景单一,多数评测聚焦于特定领域,难以全面反映模型的泛化规划能力;二是工具类型受限,多侧重 API 接口调用,却忽视了用户在现实生活中对应用程序(APP)的频繁使用;三是任务设计简单,无法有效模拟真实世界中任务间复杂的依赖关系;四是缺乏个性化,静态的任务场景难以满足不同用户的个性化需求,也难以考察模型的深度理解与记忆能力。
图 1 PlanningArena评测基准的整体流程图
为解决上述挑战,本研究提出了一个名为PlanningArena的全新评测基准框架,其整体流程如图1所示。该框架致力于高度模拟真实应用场景,在设计上具备三大创新:首先,它构建了覆盖出行、购物、娱乐等10个真实生活场景,并融合了真实的APP与API作为工具集;其次,它将复杂的规划任务分解为五种核心结构(单APP内规划、跨APP协同、并行无依赖、链式依赖、有向无环图依赖),以模块化方式构建从简到难的评测任务;最后,该研究引入了用户画像机制与多智能体数据生成框架,在保证任务逻辑严谨性的同时,实现了个性化、大规模、动态更新的评测数据生成,有效避免了数据污染问题。
为了验证当前主流LLM的规划能力,本研究在PlanningArena上对10个业界领先的大语言模型(包括GPT-4o、Gemini-1.5-pro等5个闭源模型和DeepSeekV3、Llama-3.1等5个开源模型)进行了全面测试。实验结果(如表1所示)揭示了当前LLM在复杂规划任务中仍面临显著挑战。
如表1所示,即使是表现最强的GPT-4o模型,其总体规划成功率也仅为56.5%。在开源模型中表现最佳的DeepSeekV3,总分为41.9%,虽超越了部分知名闭源模型,但与顶级模型仍有差距。研究发现,所有模型在处理简单的单APP任务(SAPP)时表现尚可,但在需要跨应用协作(CAPP)或处理复杂API依赖(尤其是深层嵌套的“多对多”依赖结构)时,性能均出现断崖式下跌。这表明,现有LLM在长程逻辑推理、上下文记忆和复杂工具调度方面存在普遍的瓶颈。
表 1 不同模型在PlanningArena上的综合性能表现 (%)
本研究提出了一个创新的大语言模型评测基准 PlanningArena。它融合真实世界场景、多样化任务结构与个性化用户需求,为评估 LLM 的规划与工具学习能力,提供全面而严谨的平台。实验结果清晰揭示,当前顶尖 LLM 在面对复杂、动态、长链条的规划任务时,普遍存在短板。PlanningArena 填补现有评测体系的空白,为学界和业界提供宝贵的评测资源与分析工具,还为未来工具增强型 LLM 的优化方向(如提升逻辑一致性、长上下文理解和复杂依赖建模能力)设定新的标准与挑战。