北京大学数据与智能实验室(PKU-DAIR) 2025年度总结
2025年,实验室在科研创新与团队协作方面持续深耕,取得一系列扎实成果。师生在探索与实践中共同成长,多个项目获得重要进展。感谢各位朋友一直以来的支持,期待新一年继续携手前行!
2025年1月回顾
2025年1月,我组成员7项成果被录用。
【论文录用】
- 我组博士生刘新一、王驭捷等合作的一篇论文被ICLR 2025录用;
- 我组博士生覃彦钊的一篇论文被ICLR 2025录用;
- 我组博士生杨灵的两篇论文被ICLR 2025录用;
- 我组科研实习生王子豪的一篇论文被ICLR 2025录用;
- 我组博士生王驭捷和硕士生竺沈涵等合作的两篇论文被ASPLOS 2025录用。
【论文汇总】
- Xinyi Liu, Yujie Wang, Fangcheng Fu, Xupeng Miao, Shenhan Zhu, Xiaonan Nie, Bin Cui: "NetMoE: Accelerating MoE Training through Dynamic Sample Placement", ICLR 2025 (Spotlight)
- Yanzhao Qin, Tao Zhang, Tao Zhang, Yanjun Shen, Wenjing Luo, Haoze Sun, Yan Zhang, Yujing Qiao, Weipeng Chen, Zenan Zhou, Wentao Zhang, Bin Cui:" SysBench: Can Large Language Models Follow System Messages?", ICLR 2025
- Xinchen Zhang, Ling Yang, Guohao Li, Yaqi Cai, Jiake Xie, Yong Tang, Yujiu Yang, Mengdi Wang, Bin Cui: "IterComp: Iterative Composition-Aware Feedback Learning from Model Gallery for Text-to-Image Generation", ICLR 2025
- Ling Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan, "SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights", ICLR 2025
- Zihao Wang, Bin Cui, Shaoduo Gan,"SqueezeAttention: 2D Management of KV-Cache in LLM Inference via Layer-wise Optimal Budget", ICLR 2025
- Yujie Wang, Shenhan Zhu, Fangcheng Fu, Xupeng Miao, Jie Zhang, Juan Zhu, Fan Hong, Yong Li, Bin Cui: Spindle: "Efficient Distributed Training of Multi-Task Large Models via Wavefront Scheduling", ASPLOS 2025
- Yujie Wang, Shiju Wang, Shenhan Zhu, Fangcheng Fu, Xinyi Liu, Xuefeng Xiao, Huixia Li, Jiashi Li, Faming Wu, Bin Cui: "FlexSP: Accelerating Large Language Model Training via Flexible Sequence Parallelism", ASPLOS 2025
2025年2月回顾
2025年2月,我组成员2项成果被录用。
【论文录用】
- 我组博士生李昊洋,硕士生葛浩等合作的一篇论文被SIGMOD 2025录用;
- 我组博士生张海林,硕士生季晓东等合作的一篇论文被SIGMOD 2025录用。
【论文汇总】
- Haoyang Li, Fangcheng Fu, Hao Ge, Sheng Lin, Xuanyu Wang, Jiawen Niu, Yujie Wang, Hailin Zhang, Xiaonan Nie, Bin Cui: Malleus: "Straggler-Resilient Hybrid Parallel Training of Large-scale Models via Malleable Data and Model Parallelization", SIGMOD 2025
- Hailin Zhang, Xiaodong Ji, Yilin Chen, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Weipeng Chen, Bin Cui: "PQCache: Product Quantization-based KVCache for Long Context LLM Inference", SIGMOD 2025
2025年3月回顾
2025年3月,我组成员2项成果被录用。
【论文录用】
- 我组博士生黄世悦,硕士生王子威等的论文被TKDE录用;
- 我组2024届博士沈彧,硕士生徐贝澄、博士生陆宇鹏等合作的一篇论文被ICDE 2025录用。
【论文汇总】
- Shiyue Huang, Ziwei Wang, Yinjun Wu, Yaofeng Tu, Jiankai Wang, Bin Cui: "OpDiag: Unveiling Database Performance Anomalies through Query Operator Attribution", TKDE 2025
- Yu Shen, Beicheng Xu, Yupeng Lu, Donghui Chen, Huaijun Jiang, Zhipeng Xie, Senbo Fu, Nan Zhang, Yuxin Ren, Ning Jia, Xinwei Hu, Bin Cui: "A-Tune-Online: Efficient and QoS-aware Online Configuration Tuning for Dynamic Workloads", ICDE 2025
【荣誉奖项】
祝贺我组博士生张海林、陈伯轩等发表于SIGMOD 2024的论文荣获SIGMOD 2024 Honorable Mention for Best Artifact奖。
SIGMOD会议是数据库领域最具影响力的顶级国际学术会议之一,与VLDB和ICDE并称为数据库领域的三大顶级会议。PKU-DAIR实验室发表于SIGMOD 2024的研究成果《CAFE: Towards Compact, Adaptive, and Fast Embedding for Large-scale Recommendation Models》荣获SIGMOD 2024 Honorable Mention for Best Artifact奖,该奖项每年仅授予至多三篇文章,旨在表彰那些在可复现性、灵活性和可移植性方面表现卓越的研究工作。
【学术活动】
2025年3月30日至4月3日,我组博士生王驭捷、硕士生竺沈涵前往荷兰鹿特丹参加国际学术会议ASPLOS 2025,并在会议期间就其研究成果进行学术报告。

图1. ASPLOS 2025会议合影
2025年4月回顾
2025年4月,我组成员2项成果被录用。
【论文录用】
- 我组硕士生林晟、博士生李昊洋等合作的一篇论文被VLDB 2025论文录用。
- 我组硕士生葛浩的一篇论文被SIGCOMM 2025论文录用。
【论文汇总】
- Sheng Lin, Fangcheng Fu, Haoyang Li, Hao Ge, Xuanyu Wang, Jiawen Niu, Yaofeng Tu, Bin Cui:"LobRA: Multi-tenant Fine-tuning over Heterogeneous Data", VLDB 2025
- Hao Ge, Junda Feng, Qi Huang, Fangcheng Fu, Xiaonan Nie, Lei Zuo, Haibin Lin, Bin Cui, Xin Liu: "ByteScale: Communication-Efficient Scaling of LLM Training with a 2048K Context Length on 16384 GPUs", SIGCOMM 2025
【学术活动】
2025年4月24日至28日,我组博士生王驭捷、覃彦钊与刘新一前往新加坡参加国际学术会议ICLR 2025,并在会议期间就其研究成果进行学术报告。

图2. ICLR 2025会议合影
2025年5月回顾
2025年5月,我组成员2项成果被录用。
【论文录用】
- 我组博士生盛则昂的一篇论文被KDD 2025 录用;
- 我组博士后赖沛超的一篇论文被ACL 2025录用;
【论文汇总】
- Zeang Sheng, Weiyang Guo, Yingxia Shao, Wentao Zhang, Bin Cui: "LLMs are Noisy Oracles! LLM-based Noise-aware Graph Active Learning for Node Classification", KDD 2025
- Peichao Lai, Zhengfeng Zhang, Wentao Zhang, Fangcheng Fu, Bin Cui: "Enhancing Unsupervised Sentence Embeddings via Knowledge-Driven Data Augmentation and Gaussian-Decayed Contrastive Learning", ACL 2025
【学术活动】
2025年5月19日至5月23日,我组硕士生沈思绮、徐贝澄前往中国香港参加国际学术会议ICDE 2025,并在会议期间就其研究成果进行学术报告。

图3. 沈思绮在ICDE 2025作学术报告

图4. 徐贝澄在ICDE 2025作学术报告
2025年6月回顾
2025年6月,我组成员1项成果被录用。
【论文录用】
我组博士生夏义扉、本科生凌宿寒等合作的一篇论文被ICCV 2025录用。
【论文汇总】
- Yifei Xia, Suhan Ling, Fangcheng Fu, Yujie Wang, Huixia Li, Xuefeng Xiao, Bin Cui: "Training-free and Adaptive Sparse Attention for Efficient Long Video Generation", ICCV 2025
【学术活动】
2025年6月22日至6月27日,我组博士生李昊洋、硕士生季晓东前往德国柏林参加国际学术会议SIGMOD 2025,会议期间就其研究成果进行学术报告。

图5. SIGMOD 2025会议合影
2025年7月回顾
2025年7月,我组成员获得多个荣誉奖项。
【荣誉奖项】
- 我组博士生张海林获评北京大学2025年优秀博士学位论文,指导教师为崔斌教授。
- 我组本科生凌宿寒获评信息科学技术学院2021级本科生“十佳”优秀毕业论文,指导教师为崔斌教授。

图6. 张海林(左)与导师崔斌教授(右)

图7. 凌宿寒(左)与崔斌教授(右)
【学术活动】
2025 年7月27日至8月1日,我组博士后赖沛超前往奥地利维也纳参加国际学术会议ACL 2025, 会议期间就其研究成果进行学术报告。

图8. 赖沛超参加ACL 2025会议
2025年8月回顾
2025年8月,我组成员2项成果被录用。
【论文录用】
- 我组博士生李昊洋,硕士生林晟等合作的一篇论文被SIGMOD 2026录用;
- 我组博士后赖沛超的一篇论文被EMNLP 2025录用。
【论文汇总】
- Haoyang Li, Fangcheng Fu, Sheng Lin, Hao Ge, Xuanyu Wang, Jiawen Niu, Jinbao Xue, Yangyu Tao, Di Wang, Jie Jiang, Bin Cui: "Hydraulis: Balancing Large Transformer Model Training via Co-designing Parallel Strategies and Data Assignment",SIGMOD 2026
- Peichao Lai, Jiaxin Gan, Feiyang Ye, Wentao Zhang, Fangcheng Fu, Yilei Wang, Bin Cui:"Improving Low-Resource Sequence Labeling with Knowledge Fusion and Contextual Label Explanations",EMNLP 2025
【学术活动】
2025年8月3日至8月7日,我组博士生盛则昂前往加拿大多伦多参加国际学术会议KDD 2025,会议期间就其研究成果进行学术报告。

图9. KDD 2025会议留影
2025年9月回顾
2025年9月,我组成员1项成果被录用。
【论文录用】
- 我组博士生杨灵的一篇论文被NeurIPS 2025录用。
【论文汇总】
- Ling Yang, Xinchen Zhang, Ye Tian, Shiyi Zhang, Chenming Shang, Minghao Xu, Wentao Zhang, Bin Cui: "HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation", NeurIPS 2025
【学术活动】
2025年9月1日至9月5日,我组硕士生林晟前往英国伦敦参加国际学术会议 VLDB 2025,会议期间就其研究成果进行学术报告。

图10. VLDB 2025会议合影
2025年10月回顾
【学术活动】
2025年10月19日-10月23日,我组博士生夏义扉前往美国夏威夷参加国际学术会议ICCV 2025,会议期间就其研究成果进行学术报告。

图11. 夏义扉参加ICCV 2025会议
2025年11月回顾
2025年11月,我组成员2项成果被录用,参与多项学术活动。
【论文录用】
- 我组硕士生徐贝澄、硕士生刘玮、丁克尧等合作的一篇论文被 AAAI 2026论文录用;
- 我组硕士生王煊宇、博士生李昊洋等合作的一篇论文被PPoPP 2026录用。
【论文汇总】
- Beicheng Xu, Wei Liu, Keyao Ding, Yupeng Lu, Bin Cui: "PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning", AAAI 2026 (Oral)
- Xuanyu Wang, Fangcheng Fu, Haoyang Li, Hao Ge, Sheng Lin , Jiawen Niu, Bin Cui: "Elastor: Elastic and Efficient Model Partitioning and Checkpointing for Fault-tolerant Distributed Training", PPoPP 2026
【学术活动】
- 2025 年11月5日至11月9日,我组博士后赖沛超前往中国苏州参加国际学术会议EMNLP 2025,会议期间就其研究成果进行学术报告。

图12. 赖沛超参加EMNLP 2025会议
2. 2025年11月14日至11月15日,我组博士生刘新一等同学前往中国香港参加国际学术研讨会FAISys 2025,会议期间就其研究成果进行学术报告。

图13. FAISys 2025会议合影
2025年12月回顾
我组博士生张海林、硕士生季晓东等合作的研究成果“PQCache: Product Quantization-based KVCache for Long Context LLM Inference”,被美国伯克利大学SkyLab实验室所主导的SkyLight榜单(https://sky-light.eecs.berkeley.edu/#/home)评估多项指标名列第一,验证了我组研究工作的有效性。
结 语

辞别2025的忙碌与收获,迎接2026的希望与好运。马踏新春福气到,家家户户纳福安。祝福新老朋友们,马年行大运,马到成功事事顺,骏马奔腾步步高,事业蒸蒸日益兴!新春快乐!
实验室简介
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。

评论 0