近日,团队博士生廖思腾在大小模型协同推理方向的研究论文 “AlphaRouter: Token-level Routing Between SLM and LLM with Reinforcement Learning and Tree Search” 被机器学习领域国际顶级会议 International Conference on Machine Learning(ICML 2026) 正式录用。该工作第一作者为2025级博士生廖思腾,指导老师为王田教授,合作者还有北京师范大学梁玉珠博士,硕士生饶恒中以及苏州大学罗喜召教授。
Siteng Liao, Yuzhu Liang, Hengzhong Rao, Xizhao Luo, Tian Wang. AlphaRouter: Token-level Routing Between SLM and LLM with Reinforcement Learning and Tree Search. Proceedings of the 43rd International Conference on Machine Learning, 2026 (Accepted).
会议简介
International Conference on Machine Learning(ICML)是机器学习领域最具影响力的国际顶级学术会议之一,长期关注机器学习理论、算法、系统与应用等前沿研究方向。ICML 录用论文代表了机器学习及人工智能相关领域的重要研究进展,在全球学术界具有广泛影响力。ICML 2026将于2026年7月6日至11日在韩国首尔举办。本届大会有效投稿23918篇,经评审最终录用6352篇,录用率为26.6%。

一、研究背景与动机
随着大语言模型在复杂推理、代码生成等任务中展现出强大能力,其高昂的推理成本和响应延迟也成为实际部署中的重要瓶颈。相比之下,小模型推理速度快、资源占用低,但复杂任务能力有限。因此,如何让小模型承担低成本生成任务,并在关键位置调用大模型,成为大模型高效推理中的重要问题。现有 token 级路由方法通常将问题简化为监督学习或二分类任务,学习在每个 token 位置判断是否调用大模型。然而,文本生成具有自回归特性,当前 token 的选择会改变后续上下文、模型分布和最终答案质量。因此,token 级路由并不是简单的逐点分类问题,而是一个具有长期影响的序列决策问题。进一步地,小模型与大模型共同构成的协同推理空间并不只是大模型默认输出路径的复现,其中甚至可能存在优于单独大模型输出的推理轨迹。这意味着,路由器不应仅仅学习“何时模仿大模型”,而应主动探索和学习更优的大小模型协同推理路径。基于这一动机,论文提出 AlphaRouter,通过强化学习刻画 token 级路由的序列决策属性,并结合协同推理树搜索探索反事实路径,从而在保证推理质量的同时降低大模型调用开销。

协同推理树搜索 (CITS) 示意图。CITS 在小模型与大模型产生分歧的位置进行分支扩展,用于探索潜在更优的协同推理路径。
二、解决方案
针对上述问题,论文提出了 AlphaRouter,一种面向大小模型协同推理的 token 级动态路由框架。AlphaRouter 将token生成过程建模为马尔可夫决策过程,在每一个生成位置根据当前上下文状态动态决定由小模型还是大模型生成下一个 token,从而在保证推理质量的同时减少大模型调用次数。
AlphaRouter 的核心由两个部分组成:一是 Collaborative Inference Tree Search(CITS)协同推理树搜索机制,二是 Tree-Advantage Policy Optimization(TAPO)树优势策略优化算法。其中,CITS 在训练阶段构建协同推理树:当小模型与大模型在同一前缀下输出相同 token 时,将其视为一致节点;当二者输出不同 token 时,将其视为分歧节点,并进一步探索不同选择对后续推理结果的影响。通过这种方式,CITS 能够在有限预算下构建包含反事实路径的协同推理空间,为路由策略学习提供高质量样本。在此基础上,TAPO 利用树结构中的反事实分支进行信度分配。传统强化学习方法在文本生成任务中通常只能从最终答案正确与否获得稀疏奖励,存在严重的信度分配问题,难以归因某一次中间路由决策究竟对最终结果产生了多大影响。TAPO 则通过比较同一分歧节点下不同子树的长期收益,计算当前选择小模型路径与大模型路径的相对优势,从而更加准确地将最终奖励归因到具体 token 级路由决策上,提升训练稳定性和样本效率。
在算法设计上,AlphaRouter 并不是简单地将大模型作为唯一“教师”进行模仿,而是通过树搜索发现小模型与大模型之间更优的组合推理路径。对于小模型和大模型输出一致的位置,系统倾向于使用小模型以降低推理成本;对于可能影响后续生成结果的关键分歧位置,路由器则根据学习到的策略判断是否调用大模型。

AlphaRouter整体框架。该框架包括协同推理树构建、节点价值估计和TAPO策略更新三个关键阶段。
三、实验评估
实验结果表明,AlphaRouter 在准确率和推理成本之间取得了更优平衡。尤其在平均激活参数量约为 1.5B 的资源预算下,AlphaRouter 展现出显著优势:在 GSM8K、ARC-Challenge 和 HumanEval 三个任务上的平均准确率达到 74.8%,显著高于同等规模的 Qwen2.5-1.5B 模型(61.3%)、请求级路由方法(约60%)以及现有 token 级路由方法 R2R(70.7%)。
进一步地,当平均激活参数量提升至约 2B 时,AlphaRouter 的平均准确率达到 81.0%,在仅使用约 2B 平均激活参数量的情况下,已经接近 Qwen2.5-7B 的平均性能(84.3%),并显著低于直接调用 7B 大模型的计算开销。这表明 AlphaRouter 能够通过更精细的 token 级路由,在不同计算预算下灵活平衡推理质量与资源消耗。

AlphaRouter 在 GSM8K、ARC-Challenge 和 HumanEval 上的准确率—平均激活参数量曲线。

表1:AlphaRouter 与静态模型、请求级路由方法和现有 token 级路由方法的性能对比。(Acc. 为准确率,CR. 为大模型调用比例,Param. 为平均激活参数量)
四、结论
本文提出了 AlphaRouter,一种基于强化学习与树搜索的大小模型 token 级协同推理框架。该方法将 token 级路由建模为协同推理路径搜索与优化问题,通过 CITS 探索反事实推理路径,并利用 TAPO 解决稀疏奖励下的信用分配问题。大量实验结果表明,AlphaRouter 能够在数学推理、通用推理和代码生成任务中取得更优的准确率—效率权衡,并有效推进小模型—大模型协同推理的 Pareto 前沿。
该研究面向大模型高效部署与边云协同智能系统中的关键需求,为在有限计算资源下实现高质量智能推理提供了新的技术路径。未来,该方向有望进一步拓展至多模型协同、边云协同推理、智能体系统调度以及资源受限环境下的大模型服务优化等应用场景。
学者网

评论 0