SIGMOD是计算机科学领域的顶级国际学术会议之一，专注于数据库系统和数据管理技术的研究。作为中国计算机学会（CCF）推荐的A类会议，SIGMOD与VLDB、ICDE并称为数据库领域的三大顶会，近年来论文接收率维持在20%左右。PKU-DAIR实验室的论文《StaleFlow: Staleness-Aware Data Management for Mitigating Data Skewness in Fully Disaggregated RL Post-Training》被SIGMOD 2027接收。

StaleFlow: Staleness-Aware Data Management for Mitigating Data Skewness in Fully Disaggregated RL Post-Training

作者：Haoyang Li, Sheng Lin, Fangcheng Fu, Yuming Zhou, Xiaodong Ji, Yanfeng Zhao, Lefeng Wang, Jie Jiang, Bin Cui。

一、背景

随着大模型预训练收益递减，RL后训练已成为提升模型推理能力的关键手段（如DeepSeek-R1、OpenAI-o1等）。典型RL后训练包含三个环节：Rollout（生成轨迹）、Reward（打分）和 Training（模型更新）。近年来的趋势是将三者完全解耦，部署在独立资源上异步执行，以获取更好的可扩展性。

然而，这种全异步架构带来了两个数据层面的“顽疾”：

1. 数据陈旧性：Rollout使用的模型版本可能落后于Training，导致训练数据“过时”，过大的陈旧性会损害收敛。

2. 数据长度偏斜：轨迹长度天然差异巨大（长尾效应），导致不同rollout实例负载不均，拖累整体吞吐。

现有系统要么严格限制陈旧性（但牺牲了缓解偏斜的灵活性），要么激进处理偏斜（但放任陈旧性无界增长），始终在收敛和性能之间被迫取舍。

图1. 不同系统在数据陈旧性和长度偏斜处理能力上的trade-off

二、方法

StaleFlow的核心思想是：从数据管理的底层协议入手，同时控制陈旧性与缓解偏斜，而非在高层做零散的修补。

1. 全局一致性协议：轨迹级的细粒度陈旧性控制

STALEFlow引入了一个虚拟陈旧性缓冲区（Staleness Buffer）抽象，为每条轨迹分配版本标识，并通过三个原语 Reserve、Occupy、Consume 追踪轨迹的完整生命周期。缓冲区容量等于batch size，并维护一个缓冲版本，严格约束（为用户指定的陈旧性上界）。

该协议不仅轻量（仅记录元数据），而且天然兼容部分rollout、轨迹迁移、组采样、冗余过滤等高级协调技术，使系统在不违反陈旧性约束的前提下，能灵活应对各种偏斜场景。

图2. StaleFlow支持的四种解决数据长度偏斜的技术

2. 解耦式架构：轨迹服务器（TS）与参数服务器（PS）

为了打破原有数据与计算实例的紧耦合，StaleFlow引入了两个中间件数据服务器：

1）轨迹服务器（TS）：存储待生成的初始轨迹和被打断的中间轨迹，由协调器按需路由到各rollout实例。

2）参数服务器（PS）：存储最新的模型参数，训练完成后主动推送（Push），rollout实例按需拉取（Pull）。

通过这种解耦，StaleFlow可以在实例粒度上独立决定何时拉取新模型、何时中断或迁移轨迹，为灵活的协调策略提供了架构基础。

图3. StaleFlow采用新颖的参数服务器（PS）架构

3. 协调策略：快照-命令循环 + 成本模型驱动

StaleFlow的协调器持续执行快照-命令循环：周期性捕获每个实例的KV Cache占用、运行轨迹、等待队列、完成数、模型版本等状态，经过推测状态（Speculative State）验证确保决策不滞后，然后依次应用三类策略：

1）路由策略（Routing）：基于多级队列和瀑布模型，优先处理陈旧度高的轨迹，并选择边际吞吐增益最大的实例进行分配。

2）同步策略（Synchronization）：仅当同步能解锁更多路由机会时，才触发模型参数拉取，避免频繁中断。

3）迁移策略（Migration）：当等待队列过长或实例间吞吐差距过大时，主动中断并重分配轨迹，重新平衡负载。

这些策略共同作用，使得StaleFlow能在给定的陈旧性上界内，充分挖掘系统潜力。

三、实验

我们在128张H20 GPU集群上，使用多种模型和DAPO算法，与多种基线（同步VeRL、一步异步VeRL-Pipeline、严格陈旧性控制VeRL-Async/AReaL/Roll Flash）进行了全面对比。

吞吐量提升：在所有模型和不同陈旧性上界下，StaleFlow均取得最高吞吐。相比同步系统，最高提升 2.68倍（平均1.91倍）；相比严格陈旧性控制的最优基线，最高提升 1.42倍（平均1.18倍）。增益随允许的陈旧性增大而扩大。

图4. 端到端吞吐

收敛保持：当陈旧性上界小于等于3时，StaleFlow的奖励曲线和评估准确率与无陈旧性的同步系统基本一致；而当陈旧性上界等于10时训练崩溃，证明了严格陈旧性控制的必要性。

图5. 端到端收敛

可扩展性：在更长响应长度、更大batch size、更多GPU下，StaleFlow的相对优势愈发明显，表明其缓解长尾偏斜的能力随规模放大而增强。

消融与分解：将路由、同步、迁移策略依次替换为朴素版本，性能逐步下降，全部使用朴素策略时性能接近VeRL-Async，证明增益来源于协调策略的组合效应。开销分析显示，协调命令（Route/Interrupt/Pull）总耗时不到总时间的3%，其中Pull参数传输仅占1.7%。

四、总结

StaleFlow通过引入轨迹级的一致性协议，从根本上解决了陈旧性控制的灵活性问题，使得上层协调策略不再受缚于僵化的约束。此外，StaleFlow将数据（轨迹和参数）与计算实例解耦，并配合集中式协调器进行全局、实时的吞吐导向决策，能够在不牺牲收敛的前提下，有效应对动态的负载偏斜。实验结果表明，StaleFlow相比当前广泛使用的RL后训练系统VeRL，最大提升高达 2.68倍。

实验室简介

北京大学数据与智能实验室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR实验室）由北京大学计算机学院崔斌教授领导，长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究，在理论和技术创新以及系统研发上取得多项成果，已在国际顶级学术会议和期刊发表学术论文200余篇，发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作，与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索，解决实际问题，进行科研成果的转化落地。

SIGMOD 2027 | StaleFlow：兼顾数据陈旧性与长度偏斜的高效异步RL后训练系统

实验室简介

评论 0

近期热门新闻

下一篇