PKU-DAIR实验室两项成果被SIGMOD 2025录用
381
2025-02-10 20:52:58(已编辑)
10
0
1
用微信扫描二维码

PKU-DAIR实验室两项成果被SIGMOD 2025录用

 

SIGMOD是计算机科学领域的顶级国际学术会议之一,专注于数据库系统和数据管理技术的研究。作为中国计算机学会(CCF)推荐的A类会议,SIGMOD与VLDB、ICDE并称为数据库领域的三大顶会。PKU-DAIR实验室《Malleus: Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization》和《PQCache: Product Quantization-based KVCache for Long Context LLM Inference》两篇论文在SIGMOD第四轮评审中被成功录用。

 

1. Malleus: Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization

作者Haoyang LiFangcheng FuHao GeSheng LinXuanyu WangJiawen NiuYujie WangHailin ZhangXiaonan NieBin Cui

论文链接https://arxiv.org/abs/2410.13333

Github链接https://github.com/PKU-DAIR/Hetu

 

图1. Malleus概览

 

在大规模模型训练过程中,个别GPU或机器出现性能波动(称为“掉队者”,straggler)会显著影响整个集群的性能。这些straggler的产生可能由多种因素引起,例如GPU过热、后台进程干扰、资源竞争或未知故障等。目前,常见的解决方案是将掉队者所在的整个数据并行组(replica)移除,但这种做法会导致大量正常节点无法得到充分利用。我们意识到,一方面,性能下降的straggler仍然可以被有效利用;另一方面,对于性能严重下降的straggler,仅需移除其自身,而不必移除整个replica。

为此,我们通过引入四个维度的异构(data、layer、device和stage),设计了一个能够感知straggler并细粒度调整异构训练策略的系统Malleus。实验表明,在多种straggler场景下,与Megatron-LM和DeepSpeed相比,我们的系统能够实现2.63-5.28倍的加速比,并具备更快的恢复速度。

 

2. PQCache: Product Quantization-based KVCache for Long Context LLM Inference

作者:Hailin Zhang, Xiaodong Ji, Yilin Chen, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Weipeng Chen, Bin Cui

论文链接https://arxiv.org/abs/2407.12820

Github链接https://github.com/HugoZHL/PQCache

 

图2. PQCache概览

 

近年来,大型语言模型 (LLM) 的上下文窗口不断扩展,从最初的几千token发展到如今的百万token级别。然而,GPU显存的限制使得LLM推理过程中token的中间表示——键值缓存KVCache成为主要的内存瓶颈,严重制约了模型的实际应用。现有方法尝试通过选择性保留部分tokens的KVCache来缓解这一问题,但往往面临模型质量下降或服务延迟增加的困境。

借鉴数据管理领域的信息检索技术,我们创新性地将KVCache的管理问题转化为嵌入检索任务。我们提出了PQCache方法,基于乘积量化(PQ)来管理KVCache,在确保低服务延迟的同时保持模型质量。在预填充阶段,我们将PQ应用于每个LLM层中自注意力头的所有token的键。在自回归解码阶段,我们使用PQ编码和聚类中心来近似检索重要的token,然后获取相应的键值对进行自注意计算。通过精心设计重叠和缓存,我们最大限度地减少了两个阶段的任何额外计算和通信开销。大量实验表明,PQCache 兼具有效性和效率,在多个长文本benchmark和任务上表现优异,并且在预填充和解码阶段都具有较低的系统延迟。

 

实验室简介

北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。

 


SCHOLAT.com 学者网
免责声明 | 关于我们 | 用户反馈
联系我们: