2
点赞
0
评论
2
转载
我要入驻

论文聚焦|KDD’26|UniGCRec:统一用户-物品量化的生成式跨域推荐

收录于合集: # 快讯

近日,实验室成员丁超越作为第一作者的论文“UniGCRec: Unified User-Item Quantization for Generative Cross-Domain Recommendation”被 The 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026) Research Track(Second Cycle)录用。KDD 2026 Research Track 第二轮共收到 3252 篇有效投稿,总体接收率约为 18.5%。

在电商、内容和生活服务等平台中,一个用户往往会在多个领域留下行为轨迹。跨域序列推荐希望借助其他领域的历史行为,改善目标领域中数据稀疏或偏好尚不充分时的下一项预测。然而,来源域的信息并非越多越好:不相关的行为会造成负迁移;而现有生成式跨域推荐通常只把物品量化为语义 ID,用户偏好仍隐含在连续序列表示中,难以在同一语义层面判断哪些跨域信号值得迁移。针对这一问题,本文提出 UniGCRec,将用户和物品同时量化为融合语义与协同信息的 CSC-IDs,并以用户 CSC-ID 作为生成模型的显式偏好前缀。在五个真实 Amazon 子域上的实验表明,UniGCRec 在全部评价指标上均优于强基线,在重叠信息受限的场景中仍能保持稳定优势。

会议简介

图片

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 是数据挖掘与知识发现领域的重要国际学术会议,由 ACM SIGKDD 主办,也是中国计算机学会推荐的 A 类国际学术会议。会议涵盖数据挖掘、机器学习、推荐系统及其真实应用等研究方向。KDD 2026 计划于 2026 年 8 月 9 日至 13 日在韩国济州岛召开。

论文简介

统一用户-物品量化的生成式跨域推荐

图片

论文链接:https://doi.org/10.1145/3770855.3818132

问题背景

推荐系统面对的用户兴趣并不局限于一个领域。例如,用户在乐器、办公用品与食品等不同类目中的选择,可能共同反映其生活方式、场景需求或稳定偏好。跨域序列推荐(Cross-Domain Sequential Recommendation, CDSR)的目标,正是利用这些跨领域轨迹来预测用户在目标领域中的下一次交互。对于行为稀疏的领域,这类额外证据尤其有价值。

早期跨域方法通常依赖共享用户、共享物品或跨域共现关系来建立连接。但在真实平台中,不同领域的物品集合往往天然不同,能够稳定跨域活跃的用户也有限。近年来,生成式推荐为这一问题提供了新的方向:它不再直接预测原始物品 ID,而是把物品文本语义压缩为可生成的离散语义 ID(Semantic IDs, SIDs),让语义相近的物品即使不存在显式重叠,也能获得可比较的表示。

核心问题

不过,现有生成式跨域推荐仍存在一个不对称之处:物品拥有离散语义 ID,用户偏好却仍埋在历史序列的连续隐藏状态中。换言之,模型知道“物品用什么离散语言表达”,却没有同样清晰的“用户偏好标识”。当多个来源域的信息同时出现时,模型很难用统一尺度判断哪些信号与目标兴趣相关,哪些只是噪声。

图片

图1 生成式跨域推荐范式比较:现有方法仅量化物品,UniGCRec 将用户与物品同时映射到统一的 CSC-ID 空间

UniGCRec 的出发点很直接:既然推荐最终发生在用户与物品的匹配上,那么两者应当拥有可对齐、可生成的离散表示。本文提出 Cross-Domain Semantic-Collaborative IDs(CSC-IDs),将文本语义和交互协同信号共同纳入量化过程;用户获得显式的 CSC-ID 前缀,物品也获得 CSC-ID 序列。这样,跨域信息不再只是被动混入历史表示,而是可以围绕明确的用户偏好锚点进行选择性迁移。

方法概述

UniGCRec 由四个阶段组成,从自然语言偏好画像的提取,到统一离散表示的学习,再到面向具体领域的生成与适配,形成完整的跨域推荐流程。

图片

图2 UniGCRec 整体框架:跨域用户画像构建、用户与物品 CSC-ID 量化、统一生成式预训练以及目标域适配

  • 阶段0:构建跨域用户画像
    用户兴趣往往会随时间变化,直接把整段交互历史交给模型,容易掩盖短期偏好的转向。UniGCRec 在离线阶段使用 Llama模型,通过滑动窗口逐段读取用户历史:每读入一段近期行为,就更新一次当前偏好画像,从而保留兴趣演化过程。随后,模型分别从各领域画像及按时间合并的混合领域历史中提取可迁移兴趣,汇总为一份跨域用户画像。
    这里的关键不是简单拼接多域行为,而是尽量保留跨领域仍有意义的稳定偏好,并压低仅在单一领域出现的偶然信号。画像生成只使用训练集交互,并在训练前离线完成和缓存;推荐训练与推理期间无需调用画像生成模型。

  • 阶段1:统一量化用户与物品
    在用户侧,跨域画像提供语义表示,不同领域的行为序列提供协同表示;在物品侧,文本描述和交互信息同样构成语义与协同两类证据。UniGCRec 使用双塔结构融合这两种信号,再通过 RQ-VAE 将用户和物品分别量化为离散 CSC-IDs。用户与物品使用各自的码本,但在所有领域间共享,并通过对齐目标使两侧表示在量化前具有可比较的结构。
    来源域行为中可能既有帮助,也有干扰。为此,论文在用户侧设计了 Selective Transfer Gate(ST-Gate)。它根据目标域与其他领域的相关程度及用户活跃信息,为不同来源域分配权重,再通过门控机制平衡目标域协同信号和跨域汇总信号。与直接混合所有历史相比,这一步更适合处理兴趣差异明显的跨域场景。

图片

图3 User ST-Gate:依据领域相关性与用户活动信息聚合来源域信号,并与目标域信号进行门控融合

  • 阶段2:生成式预训练
    完成量化后,用户 CSC-ID 被放在目标域物品历史之前,作为一段显式的偏好前缀。生成模型接收“用户偏好前缀 + 目标域历史物品 CSC-IDs”,自回归生成下一物品的 CSC-ID。预训练阶段使用五个领域的联合数据,使模型能够学习不同领域之间可迁移的生成规律。

  • 阶段3:目标域适配与约束解码
    针对不同目标领域,UniGCRec 在 Qwen2.5-7B 生成骨干上采用 LoRA 进行参数高效适配,保留预训练阶段获得的跨域知识。推理时,模型使用目标域候选物品池构建的前缀树约束生成路径,使输出的 CSC-ID 对应候选池中的有效物品。

实验结果

论文在五个 Amazon 子领域上进行实验,包括 Instruments、Beauty、Arts、Office 和 Pantry。所有数据均采用 5-core 过滤,评价指标为 Recall和 NDCG。对比方法覆盖单域序列推荐、非生成式跨域推荐、生成式推荐以及生成式跨域推荐。

表1 UniGCRec 在五个目标领域上的整体表现

图片

表2 零重叠设置下的推荐表现

图片

除整体评价与零重叠设置外,论文进一步对量化前的用户与物品表示进行可视化,用于考察用户-物品对齐目标对跨域表示空间组织方式的影响。

图片

图4 量化前表示的 t-SNE 可视化:对齐目标使不同领域的用户与物品表示形成更统一的跨域空间

 

讨论

1. 对跨域推荐系统的实际价值

现实中的推荐服务经常同时覆盖多个类目或内容频道,但不同频道的交互量差异很大。UniGCRec 提供了一种更清晰的迁移方式:先把散落在各领域的偏好整理成用户侧的离散前缀,再让模型在目标领域中生成有效物品。对于新开设或数据较少的频道,这种做法能够利用其他领域的稳定兴趣,而不是粗略地把所有行为混在一起。由于画像可以离线缓存,领域适配又使用轻量参数更新,该框架也具备进一步面向实际系统优化的空间。

2. 研究的局限性和未来方向

当前方法仍需要离线调用大语言模型生成用户画像。当兴趣变化较快、商品和内容持续更新时,画像的更新频率、成本与时效性之间仍需权衡。另一方面,CSC-ID 的语义能力依赖于可用的物品文本与交互质量;对于描述缺失、噪声较大或模态更丰富的内容,仅依靠文本与行为可能还不够。实验目前集中于 Amazon 子领域的离线设置,未来可进一步考察跨平台、多模态及在线反馈场景,并探索更轻量的画像更新机制。

总结

本研究的主要贡献如下:

(1) 本文指出生成式跨域推荐中存在用户与物品表示不对称的问题,并提出 UniGCRec,将用户和物品统一量化为融合语义与协同信号的 CSC-IDs。

(2) 本文通过跨域用户画像和 User ST-Gate 筛选可迁移偏好信号,并用用户 CSC-ID 前缀显式条件化生成过程,使跨域迁移更可控。

(3) 在五个真实领域及零重叠设置下,UniGCRec 均取得稳定优势,验证了统一用户-物品离散表示对于生成式跨域推荐的有效性。

 

如果您对本文内容感兴趣,可与通讯作者联系: zhangpeng_@fudan.edu.cn

 

实验室相关论文

[1] Yuebo Feng, Jiahao Liu, Mingzhe Han, et al. Drift-Aware Incremental Token Adaptation with Collaborative Semantics for Generative Recommendation. SIGIR 2026.

[2] Jiahao Liu, Xueshuo Yan, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang and Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.

[3] Mingzhe Han, Dongsheng Li, Jiafeng Xia, Jiahao Liu, Hansu Gu, Peng Zhang, Ning Gu and Tun Lu. FedCIA: Federated Collaborative Information Aggregation for Privacy-Preserving Recommendation. SIGIR 2025.

[4] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu and Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.

 

如果您对我们实验室的相关工作感兴趣,欢迎访问我们的网站:

协同信息与系统实验室(CISL)

实验室网站主页:https://cscw.fudan.edu.cn/

实验室Github主页:https://github.com/FudanCISL

学者网机构号是学者网提供的学术"公众号"平台,为学者团队、学术机构、企业等提供官方媒体账号服务,支持发布动态、活动、通知与招生招聘信息等内容,支持多人协作维护,助力机构链接学界资源、扩大学术影响力。

返回顶部