学术成果｜WWW'26｜线图变换破解推荐系统两大难题——LGDA统一解决数据稀疏与类别不平衡

2026 年 7 月 2 日，SCHOLAT 数据智能团队博士生周俊铭线上受邀参加 WWW 2026 国际会议，以口头汇报形式展示论文《Line Graphs Are Here! Unlock a Simple Solution for Data Sparsity and Class Imbalance in Recommender System》的完整研究成果。

该研究创新性地将推荐系统问题转化为线图上的节点分类任务，通过过采样少数类、节点级分类器、数据增强与筛选等四步流水线，有效缓解数据稀疏与长尾分布问题，在多个公开数据集上均取得显著性能提升，具有良好的通用性与可扩展性。

会议简介

The Web Conference（原 WWW 会议）是国际万维网领域的顶级学术会议，由 ACM SIGWEB 主办，也是中国计算机学会（CCF）推荐的 A 类国际学术会议。会议涵盖万维网技术、推荐系统、信息检索、社会计算、数据挖掘等多个研究方向，在学术界和工业界均具有广泛影响力。WWW 2026 原计划于 2026 年 4 月 13 日至 17 日在阿联酋迪拜举办，受地缘冲突影响，最终调整为 2026 年 6 月 29 日至 7 月 3 日线上召开。

论文简介

面向推荐系统数据稀疏与类别不平衡的线图数据增强方法

论文链接：https://doi.org/10.1145/3774904.3792292

问题背景

推荐系统是互联网应用的核心技术之一，旨在从海量信息中为用户筛选出可能感兴趣的内容。推荐系统的性能直接决定了用户体验、平台收益以及信息分发的效率与公平性。然而，在真实场景中，推荐系统长期面临两个相互交织的核心挑战：数据稀疏与类别不平衡。

● 数据稀疏是指用户与物品之间的交互数据极其有限。在大多数推荐平台上，用户往往只与极小一部分物品产生交互，而绝大多数物品只获得很少的用户反馈。当数据稀疏度达到 90% 以上时，传统的 FM、DNN 等模型性能会急剧下降，甚至完全失效。数据不足导致模型难以准确学习用户偏好，这是制约推荐质量的关键瓶颈。

● 类别不平衡（又称长尾分布）则是另一普遍问题。在评分推荐场景中，高分和低分样本往往占比极少，中间分数占据绝大多数；在物品维度上，头部热门物品占据了大部分交互，而尾部物品的交互数据非常稀缺。这种分布偏差会使模型倾向于预测头部类别，导致尾部样本预测误差显著增大。在实际应用中，误判少数但高价值的样本可能给平台带来巨大的经济损失。

图1 推荐系统中数据稀疏与类别不平衡问题的实证分析

现有方法局限

针对数据稀疏问题，现有方法主要分为两类：数据增强与利用辅助信息。数据增强方法通过生成模拟交互来扩充训练数据，但如果处理不当容易引入噪声；而利用社交网络、知识图谱等辅助信息的方法则依赖特定场景，通用性受限。

针对类别不平衡问题，现有方案也可分为数据级和算法级两类。数据级方法通过过采样、欠采样等技术平衡类别分布；算法级方法则通过调整损失函数或引入先验概率来增强对尾部类别的关注。此外，也有研究尝试混合方法以整合两者优势。

然而，上述两类问题往往同时存在且相互影响，现有方法大多只针对单一问题设计，缺乏能够统一解决数据稀疏与类别不平衡的有效框架。

方法概述

从二分图到线图：换一个视角看推荐问题

针对上述问题，本文提出 LGDA（Line Graph Data Augmentation），一种基于线图变换的推荐系统数据增强策略。LGDA 的核心思想是：将用户-物品交互二分图转换为线图，从而把数据稀疏与类别不平衡这两个问题，统一转化为线图领域中的「标记节点不足」与「标签分布偏移」问题，进而直接利用成熟的节点分类与不平衡图学习技术加以解决。

具体而言，在原始的用户-物品二分图中，每条边代表一次用户-物品交互，边的权重代表评分。将其转换为线图后，每条边变成一个节点，边的评分变成节点的标签；如果原始图中两条边共享一个顶点，则在线图中对应的两个节点相连。通过这一变换：

● 数据稀疏 → 线图中存在大量未标记节点（对应未知评分），可用节点分类方法推断标签

● 类别不平衡 → 线图中节点标签分布偏斜，可用不平衡图学习方法重新平衡

这一思路为统一解决推荐系统两大核心难题开辟了新的技术路径。

图2 线图变换的研究动机示意图

LGDA 整体采用四步流水线架构：

第一步：目标增强与二分图建模。为控制计算开销，LGDA 采用定向增强机制，重点关注不活跃用户和冷门物品，筛选出需要增强的目标交互对，然后将增强后的交互建模为带权二分图。

第二步：封闭子图提取与线图变换。对每个待增强的目标节点对，从二分图中提取其 k 跳封闭子图以保留局部拓扑结构，再将子图转换为线图，从而将推荐问题转化为线图上的节点分类任务。

第三步：少数类过采样与节点分类器。为缓解线图中的类别不平衡，LGDA 通过嵌入插值生成少数类合成节点及其连接边，修正标签分布的偏斜。然后在平衡后的线图上训练 GNN 分类器，用于预测未标记节点的标签（即缺失评分）。

第四步：置信度筛选与数据精炼。并非所有增强数据都可靠，噪声反而可能损害性能。为此，LGDA 引入基于置信度的筛选机制：只有当增强数据能够降低推荐模型的 RMSE 时才被保留，否则丢弃。这一机制确保了生成数据的高质量与均衡分布。

值得注意的是，LGDA 被设计为一个即插即用的模块，可以无缝集成到现有的各种推荐框架中，无需修改原有模型结构与配置。

图3 LGDA 方法整体框架

实验结果

四个真实数据集 + 多种主流基线的全面验证

本文在 CiaoDVD、MovieLens 100K、SCHOLAT 和 Yelp 四个真实世界数据集上进行了大量实验，覆盖不同稀疏度与不平衡程度的场景。评估指标采用 MAE 和 RMSE，对比基线包括 FM、DNN、xDeepFM、LightGCN、NCL、CGCL、SCCF、RecDCL 等多种主流推荐模型。

实验结果表明：

● 整体有效性：LGDA 在所有数据集和基线上均能稳定降低 MAE 和 RMSE，验证了其即插即用的通用增强能力。

● 稀疏性增益：在最稀疏的 CiaoDVD 数据集上增益最大，在最稠密的 MovieLens 100K 上增益最小——说明 LGDA 的效果随数据稀疏度增加而增强，恰好针对了稀疏场景下的核心痛点。

● 不平衡增益：性能随不平衡程度增加呈现先升后降的趋势，在中等不平衡的 CiaoDVD 上达到峰值，表明 LGDA 能够有效纠正长尾类别带来的偏差。

● 鲁棒性：即使在高不平衡的 SCHOLAT 数据集上，LGDA 通过局部过采样仍能保持稳定的性能提升，展现了良好的鲁棒性。

此外，消融实验进一步验证了各模块的必要性，包括骨干分类器的选择、过采样策略的作用、以及置信度筛选机制的贡献。

总结

总体而言，LGDA 重新思考了推荐系统中数据稀疏与类别不平衡问题的解决范式：与其在原始交互空间中分别处理两个难题，不如通过线图变换将它们统一到图学习的框架下，借助成熟的节点分类与不平衡图学习技术一并解决。这一思路简洁而有效，为推荐系统的数据增强与鲁棒性提升提供了一条新的研究路径。

如果您对本文内容感兴趣，可与通讯作者联系：rhlin@m.scnu.edu.cn

作者团队

该论文相关研究工作由周俊铭博士、汤庸教授、林荣华研究员、吴正洋副教授、钟昊博士、李树鹏博士共同完成。其中汤庸教授与林荣华副研究员担任共同通讯作者。

SCHOLAT 数据智能团队主要研究数据智能理论、技术和应用，特别以SCHOLAT为背景，研究社会网络计算理论、社交网络软件设计、社交大数据分析、学者知识图谱及大模型应用，形成SCHOLAT数据基座及应用生态。

文末附上本次汇报ppt与论文全文，供参考。

关于学讯通

学讯通是学者网官方机构号，致力于为广大学者提供权威、及时的学术资讯服务。我们聚焦学术前沿动态、深度政策解读与优质科研资源分享，内容涵盖学术会议通知、项目申报信息、期刊动态、高校招聘及学者访谈等。作为连接学者与优质学术信息的桥梁，学讯通支持关联学者主页，助力构建真实、可信的学术社交网络。关注学讯通，让科研信息获取更高效，学术交流更便捷。获取更多学术资讯，欢迎扫描下方二维码，一键关注学讯通机构号。