近日,实验室博士生刘家豪作为第一作者的论文 Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction 被 The 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026) Research Track(Second Cycle)录用。KDD 2026 Research Track 第二轮共收到 3252 篇有效投稿,总体接收率约为 18.5%。
该工作面向推荐与广告系统中的点击率预测任务,聚焦流式训练场景下数值特征难以有效表征的问题。传统数值特征处理方法往往依赖离线分桶或人工规则,容易在数据分布变化时产生语义漂移;而神经网络式嵌入方法虽然支持端到端训练,却通常忽略了数值特征背后的分布信息。为解决这一问题,本文提出了面向流式数值特征的分布感知端到端嵌入框架 DAES。该方法通过高效的跳跃蓄水池采样估计流式分布,并在分位空间中进行连续插值表示,同时引入字段感知的分布调制机制,使模型能够捕捉不同上下文下数值特征的语义差异。大量离线实验和线上 A/B 测试表明,DAES 在多种主流 CTR 模型架构上均取得稳定提升,并已部署于日活数亿级用户的短视频广告平台。
会议简介

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 是数据挖掘与知识发现领域的重要国际学术会议,由 ACM SIGKDD 主办,也是中国计算机学会推荐的 A 类国际学术会议。会议涵盖数据挖掘、机器学习、推荐系统及其真实应用等研究方向。KDD 2026 计划于 2026 年 8 月 9 日至 13 日在韩国济州岛召开。
论文简介
面向流式点击率预测的
分布感知数值特征嵌入

问题背景
点击率预测是推荐系统与计算广告中的核心任务,其目标是估计用户点击某一内容或广告的概率。主流深度 CTR 模型通常遵循“嵌入层—特征交互层—预测层”的范式:首先将类别特征和数值特征映射到统一的低维向量空间,再通过交互网络建模高阶特征关系,最终输出点击概率。
对于类别特征而言,嵌入查表已经成为标准做法。例如,用户性别、广告类目、视频标签等离散 ID 可以直接映射到对应的 embedding。然而,数值特征却更加复杂。用户年龄、商品价格、曝光次数、历史点击率、统计转化率等数值特征通常具有连续分布、长尾分布、强尺度差异和天然序关系,很难像类别特征一样直接查表表示。
在真实工业系统中,这一问题进一步被流式训练放大。推荐和广告系统需要实时响应用户兴趣变化、内容热度变化和流量分布变化,模型通常以数据流的形式持续更新。此时,数值特征的分布不再稳定,离线统计结果很容易过时。如何在流式环境中让数值特征既保持连续表示,又能显式感知动态分布,成为点击率预测模型中的关键挑战。

图 1 面向流式点击率预测的数值特征嵌入问题示意图
现有方法局限
现有数值特征嵌入方法大体可以分为四类:静态分桶、神经网络嵌入、插值分桶和动态分位嵌入。
静态分桶是工业界常用方案。它先基于离线统计结果将连续数值划分为若干桶,再为每个桶学习一个 embedding。该方法简单有效,也能显式利用数值分布信息。然而,它存在两个明显问题。第一,表示不连续:同一桶内的不同数值会共享完全相同的 embedding,而跨越桶边界的相邻数值却会被映射到不同表示。第二,分桶边界依赖离线统计,一旦流式数据分布发生变化,边界更新可能导致同一数值对应的桶编号发生改变,从而引发语义漂移。
神经网络嵌入通过 MLP 或可微分模块直接将数值映射为 embedding,支持端到端训练,也能保证表示的平滑性。但这类方法通常只关注原始数值本身,缺乏对特征分布的显式建模。例如,同样是“100”这个数值,在低价商品中可能代表高端价格,在高价商品中却可能代表低端价格;仅使用原始数值难以捕捉这种分布语义。
插值分桶试图同时兼顾分布信息与表示连续性。它使用离线分位点划分桶边界,并通过线性插值聚合多个 meta-embedding。尽管这种方法比静态分桶更加平滑,但它仍然依赖离线统计,因此并没有真正解决流式环境中的分布更新与语义漂移问题。
动态分位嵌入是更接近本文目标的一类方法。代表性方法 DAE 尝试在线估计分位点,并基于分布信息生成嵌入权重。然而,DAE 的分位估计依赖连续 batch 独立同分布的假设。在真实流式推荐系统中,数据通常具有明显的非平稳性和时间相关性,该假设很难成立,进而可能导致分位估计出现系统偏差。

图 2 不同数值特征嵌入范式对比
方法概述
-
让数值特征从“数值大小”走向“分布位置”
针对上述问题,本文提出 DAES,即 Distribution-Aware End-to-End Embedding for Streaming Numerical Features。DAES 的核心思想是:数值特征的 embedding 不应只由“数值本身有多大”决定,而应由“该数值在当前流式分布中处于什么位置”以及“它在特定上下文中意味着什么”共同决定。
具体而言,DAES 包含三个关键模块:
第一,流式分布估计。DAES 使用跳跃蓄水池采样维护数值特征的全局流式分布,在有限内存下持续估计分位点。
第二,分位空间插值。DAES 不在原始数值空间中编码,而是将数值映射到分位空间,以捕捉累计密度信息和序关系。
第三,字段感知分布调制。DAES 根据类别字段 embedding 对数值特征的分位表示进行调制,从而适配不同上下文下的条件分布语义。
-
模块一:跳跃蓄水池采样
在流式场景中,系统无法保存全部历史样本,因此需要在有限内存中维护对全局分布的近似。DAES 采用蓄水池采样,为每个数值特征维护一个固定大小的样本集合。该采样机制保证在任意时间点,历史样本被保留在蓄水池中的概率相同,因此蓄水池可以作为全局历史数据的无偏近似。
然而,标准蓄水池采样需要对每个新到来的样本生成随机数并判断是否替换。当数据流极大时,大量新样本实际上不会被选中,这会带来明显的计算浪费。
为此,DAES 进一步提出 Jump Reservoir Sampling。它不再逐条判断样本是否进入蓄水池,而是直接采样“下一次蓄水池更新会在多久之后发生”。在两次更新之间,算法可以跳过所有不会被选中的样本,从而显著降低随机数生成与更新开销。论文推导了跳跃长度的分布,并给出近似 的时间复杂度,其中 为蓄水池大小, 为数据流长度。
直观来看,随着数据流不断增长,新样本进入蓄水池的概率会越来越小。与其对每个样本都进行一次无效判断,不如直接预测下一次“命中”的位置。这一设计使 DAES 能够更好适配大规模流式训练系统。

-
模块二:分位空间插值
仅估计分布还不够,关键在于如何使用分布信息表示数值。
已有动态分位嵌入方法通常在原始数值空间中度量输入值与分位点之间的距离。但这种做法容易受到数值密度影响。例如,在稠密区域中,两个数值之间很小的差异可能对应大量样本;而在长尾稀疏区域中,较大的数值差异可能只对应很小的概率质量。因此,原始数值距离并不总能反映真实的分布语义。
DAES 将数值编码从 value space 转移到 quantile space。具体来说,模型首先基于蓄水池估计若干分位点,将整体分布划分为多个等概率区间。对于输入数值 ,DAES 判断它落在哪个分位区间,并根据它在该区间内的相对位置构造一个“温度计式”的连续向量。 例如,一个数值若处在第 4 个分位区间的中间位置,其表示可以近似理解为:
这一表示既保留了数值的序关系,也显式编码了它在整体分布中的累计位置。相比直接使用原始数值,分位空间表示更稳定,也更适合长尾、偏态和非均匀分布的工业特征。
-
模块三:字段感知分布调制
数值特征的语义往往依赖上下文。同样的商品价格,在不同类目下可能意味着完全不同的消费层级;同样的用户活跃天数,在不同用户群体中也可能反映不同的兴趣强度。
一种直接做法是为每个上下文字段单独维护数值分布,但这会带来严重的组合爆炸。尤其在推荐和广告系统中,类别字段数量多、取值空间大,如果为每个字段组合都单独建模分布,几乎无法扩展。
DAES 采用更灵活的方式:先用全局分布得到原始分位表示,再通过类别字段 embedding 对其进行调制。论文提出了两种调制策略。
第一种是 仿射变换。模型根据字段 embedding 生成一个调制矩阵,对分位表示进行上下文相关的重加权。
第二种是 门控机制。模型根据字段 embedding 生成一个 gate 向量,对不同分位区间进行动态放大或抑制。
经过调制后的权重向量会被用于聚合一组可学习的 meta-embedding,从而得到最终的数值特征表示。通过这种方式,DAES 将上下文校准提前到 embedding 层,而不是完全依赖后续特征交互网络隐式学习。
实验结果
-
离线实验与线上部署双重验证
本文在两个公开数据集 Criteo、AutoML 和一个大规模工业数据集上进行了实验。所有数据均按照曝光时间排序,以模拟真实流式训练场景。实验指标包括 AUC 和 LogLoss,并在多个主流 CTR 模型骨干网络上验证方法的通用性,包括 FNN、Wide & Deep、DeepFM、IPNN、DCN v2 和 xDeepFM。对比方法覆盖静态分桶、神经网络嵌入、插值分桶和动态分位嵌入四大类。
实验结果表明,DAES 在不同数据集和不同 backbone 上均取得了稳定领先的效果。与静态分桶相比,DAES 避免了离线边界更新导致的语义漂移;与普通神经嵌入方法相比,DAES 显式利用了分布信息;与 PLE 等插值分桶方法相比,DAES 不再依赖离线统计;与 DAE 相比,DAES 使用更适合流式场景的蓄水池采样,并在分位空间而非原始数值空间中进行编码。
值得注意的是,PLE 在多个 baseline 中表现较强,这也从侧面说明:分布信息对数值特征表示至关重要。但 PLE 的分布信息来自离线统计,而 DAES 将分布估计整合进流式训练过程,因而更适合动态推荐与广告环境。
-
消融实验
为了验证各个模块的有效性,论文进一步进行了系统消融分析。
在分布估计方面,DAES 使用的蓄水池采样在 Criteo 数值特征上的 KL 散度显著低于基于 order statistics 的估计方法,说明其能更准确地保留整体分布信息。同时,跳跃蓄水池采样在保持相近估计精度的同时,将随机数调用量降低到标准蓄水池采样的 3%–4%。
在插值空间方面,论文对比了原始数值空间和分位空间。结果显示,分位空间插值能够带来更好的预测性能,说明“数值在分布中的位置”比“数值与分位点的欧氏距离”更适合指导 embedding 学习。
在分布调制方面,实验表明,引入字段感知调制后,模型性能明显优于不调制的版本。进一步分析发现,选择对数值条件分布影响更显著的类别字段进行调制,可以获得更好的效果。这说明 DAES 并非简单增加参数,而是在 embedding 层显式建模了上下文相关的数值语义。
-
线上 A/B 测试
除离线实验外,论文还在一个日活数亿级用户的大规模平台上进行了为期 7 天的线上 A/B 测试。线上实验将 DAES 与生产环境中基于人工离散化规则的数值特征处理方法进行对比。结果显示,DAES 显著优于生产基线,使广告主价值 提升 2.307%。目前,DAES 已经在该广告平台完成全量部署。
这一结果表明,DAES 不仅在学术基准数据集上有效,也能够在真实工业系统中产生实际商业价值。更重要的是,DAES 将数值特征处理无缝整合到模型训练过程中,减少了对离线统计和人工分桶规则的依赖,降低了特征工程维护成本。
总结
总体而言,DAES 重新思考了数值特征在流式 CTR 预测中的表示方式:数值不只是一个标量,更是动态分布中的一个位置,也是特定上下文中的一种语义。通过将分布估计、分位编码和字段感知调制统一到 embedding 层,DAES 为在线推荐与广告系统中的数值特征建模提供了一条高效、可扩展且可落地的新路径。
如果您对本文内容感兴趣,可与通讯作者联系: zhangpeng_@fudan.edu.cn
实验室相关论文
[1] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. CL4CTR: A Contrastive Learning Framework for CTR Prediction. WSDM 2023.
[2] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. Enhancing CTR Prediction with Context-Aware Feature Representation Learning. SIGIR 2022.
[3] Fangye Wang, Hansu Gu, Dongsheng Li, Tun Lu, Peng Zhang, Ning Gu. Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction. CIKM 2023.
[4] Jiahao Liu, Dongsheng Li, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Unbiased Collaborative Filtering with Fair Sampling. SIGIR 2025.
[5] Jiahao Liu, Shengkang Gu, Dongsheng Li, Guangping Zhang, Mingzhe Han, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. AgentCF++: Memory-enhanced LLM-based Agents for Popularity-aware Cross-domain Recommendations. SIGIR 2025.
[6] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.
[7] Jiahao Liu, Xueshuo Yan, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.
[8] Ziye Tong*, Jiahao Liu*, Weimin Zhang, Hongji Ruan, Derick Tang, Zhanpeng Zeng, Qinsong Zeng, Peng Zhang, Tun Lu, Ning Gu. RQ-GMM: Residual Quantized Gaussian Mixture Model for Multimodal Semantic Discretization in CTR Prediction. SIGIR 2026.
如果您对我们实验室的相关工作感兴趣,欢迎访问我们的网站:
协同信息与系统实验室(CISL)
实验室网站主页:https://cscw.fudan.edu.cn/
实验室Github主页:https://github.com/FudanCISL

评论 0