VLDB 2025 | 多任务异构数据感知的LoRA微调系统
VLDB(International Conference on Very Large Data Bases)是数据库领域的顶级国际学术会议之一,与SIGMOD、ICDE并称为数据库领域的三大顶会。第51届VLDB将于2025年9月1日至5日在英国伦敦召开。PKU-DAIR实验室论文《LobRA: Multi-tenant Fine-tuning over Heterogeneous Data》被VLDB 2025录用,系PKU-DAIR实验室自研分布式深度学习系统河图Hetu围绕大模型训练的新成果。
LobRA: Multi-tenant Fine-tuning over Heterogeneous Data
作者:Sheng Lin, Fangcheng Fu, Haoyang Li, Hao Ge, Xuanyu Wang, Jiawen Niu, Yaofeng Tu, Bin Cui
代码链接:https://github.com/PKU-DAIR/Hetu
PKU-DAIR实验室近期针对异构模型和数据负载的优化已开展了一系列相关工作:
- HotSPa [SOSP’24]: https://dl.acm.org/doi/10.1145/3694715.3695969
- Malleus [SIGMOD’25]: https://arxiv.org/abs/2410.13333
- FlexSP [ASPLOS’25]: https://arxiv.org/abs/2412.01523
- Hydraulis: https://arxiv.org/abs/2412.07894
- ByteScale: https://arxiv.org/abs/2502.21231
1. 背景与挑战
随着基于Transformer的预训练模型发展,模型尺寸不断扩大,下游应用对微调的需求不断增长。云厂商通常提供“模型即服务”(Model as a Service, MaaS)的架构,允许用户上传数据集完成个性化的微调请求。为了减小多微调任务的执行开销,LoRA[1] 作为一种参数高效微调技术被广泛应用,减小模型微调所需的显存并提高效率。鉴于租户的微调请求通常基于同一个预训练模型,同时服务多租户的微调请求成为提高服务效率的关键。然而,现有的微调框架如NeMo 和 mLoRA[2] 都假设训练负载是同构的(即所有序列长度一致),并根据数据集内的最长序列进行资源配置和并行策略选择,在实践中无法达到整体训练效率最优。
图1:多租户任务数据集中序列长度的长尾分布
具体而言,在实际的多租户微调请求服务中,不同租户的微调数据集之间具有异构性。如图1所示,一方面,不同任务类型的数据集的序列长度不同,例如常见的对话数据集以短序列为主,而总结类数据集则以长序列为主;另一方面,在同时服务多个微调请求时,多任务数据集整体服从长尾分布,即存在大量短序列和少量长序列。
图2:多任务微调下不同执行方案及相应卡时的示例
在分布式微调时,对数据并行、模型并行等并行策略的选择会导致不同的内存消耗、通信开销和执行效率。如图2(a)和图2(b)所示,在同时服务多租户微调任务时,如果简单地将所有数据合并且采用同构策略,需要的卡时反而比顺序跑要更长,而在图2(c)和图2(d)中,利用同时存在不同模型并行度的异构策略,能更高效地处理异构数据负载。
2. 方法
以此为出发点,我们提出了异构微调系统LobRA,通过异构的并行策略部署来处理不同租户任务之间的异构数据负载。图2(d)展示了一个简单的例子,我们的系统会在微调开始前根据多任务的数据分布情况确定静态的并行策略方案,并在每轮训练迭代中根据工作负载的异构特征进行负载均衡的数据分发,以减少模型等待梯度同步的资源浪费。这种基于异构理念设计的训练范式能够让异构负载在各自的显存约束内选择合适的模型并行方案,从而达到整体的高效训练。
图3:LobRA系统架构图
图3展示了LobRA的系统架构图,其由求解器和异构训练模块组成。我们将求解器分为两个阶段:静态的并行策略部署求解(Model Deployment Planning)和动态的数据分发求解(Data Dispatching Planning)。
静态阶段根据多租户任务的数据集分布将策略求解建模为一个混合整数非线性规划(MINLP)问题,并通过策略剪枝(Configuration Pruning)加速求解过程,最终得到并行策略部署方案。
动态阶段则首先对每轮迭代的训练数据进行动态分桶(Dynamic Bucketing),通过动态规划算法减少padding,并将分桶结果交付给求解器给出在不同模型并行组上实现负载均衡的数据分发策略(Workload-Balanced Data Dispatching)。动态阶段的求解器将数据分发建模为线性规划问题,从而能够在运行时快速求解。值得一提的是,LobRA 将数据分发求解与训练过程解耦并行,从而隐藏求解器的时间开销。
3. 实 验
图4:LobRA与其他执行方案的端到端性能实验对比
我们构建了面向多租户LoRA微调任务的训练框架LobRA,通过高效的多租户异构数据处理,支持在70B的大模型上同时服务10个以上的多租户微调请求,并在多个数据集、多种大小模型上进行实验。图4展示了 LobRA 与不同的执行方案的性能对比,实验结果表明,我们的系统相比于同构混合执行(Task-Fused)减少了最多60.67%的卡时,且与同构顺序执行(Task-Sequential)和异构顺序执行(LobRA-Sequential)等方案相比有更高的训练效率。
4. 总 结
在本研究中,我们提出了面向多租户LoRA微调任务的训练系统LobRA,该系统通过静态的异构并行策略部署和动态的负载均衡数据分发方法实现了多任务异构数据负载的高效微调。实验表明,LobRA能更好地节省多任务服务的卡时,优于现有的执行方案。
参考文献:
[1] Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen. LoRA: Low-Rank Adaptation of Large Language Models. ICML, 2022.
[2] Zhengmao Ye, Dengchun Li, Zetao Hu, Tingfeng Lan, Jian Sha, Sicong Zhang, Lei Duan, Jie Zuo, Hui Lu, Yuanchun Zhou, Mingjie Tang. mLoRA: Fine-Tuning LoRA Adapters via Highly-Efficient Pipeline Parallelism in Multiple GPUs. VLDB, 2025.
实验室简介
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。
评论 0