ACM SIGKDD Conference on Knowledge Discovery and Data Mining 是数据挖掘与知识发现领域的顶级国际会议之一。KDD 2026 将于 2026 年 8 月 9 日至 13 日在韩国济州岛举办。
CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization
作者:Beicheng Xu, Keyao Ding, Wei Liu, Yupeng Lu, Bin Cui
代码链接:https://github.com/PKU-DAIR/cofeh
Arxiv 链接:https://arxiv.org/pdf/2602.09851
问题背景与动机
一个标准的监督学习流程可以拆成两个相互关联的子问题:一是对数据进行特征工程(FE),二是对下游模型进行超参数优化(HPO)。
从 FE 的角度看,传统 AutoML 为了让搜索可控,通常依赖有限算子库和固定流程模板,因此难以利用领域语义,也难以构建真正自由的 FE 流水线。LLM 具备语义推理和代码生成能力,为突破这一限制提供了可能。但现有 LLM-based FE 方法大多仍局限于孤立子任务,尤其是特征生成。因此,论文得到第一个判断:
Conclusion #1:FE 是语义密集型任务,LLM 适合承担 FE 设计。
从 超参数调优的角度看。贝叶斯优化(BO)长期以来都是 HPO 中最主流的方法之一。相比之下,直接用 LLM 做 HPO 往往缺乏明确的目标代理模型和不确定性估计,也难以稳定利用完整优化历史。因此,论文得到第二个判断:
Conclusion #2:在 HPO 中,BO 仍然是更可靠的核心优化器。
这两个判断放在一起,就形成了本文最核心的矛盾:LLM 更适合做 FE,BO 更适合做 HPO,但真正的 AutoML 目标并不是分别把二者做好,而是联合优化一条完整机器学习流水线。现有方法通常有两类选择。传统 AutoML 可以把 FE 和 HPO 放进同一个同质搜索空间中联合优化,但代价是 FE 空间被大幅限制。LLM-based FE 方法则常常采用异质优化器:LLM 负责 FE,BO 负责 HPO。但由于二者表示空间不同,实际流程往往退化成“先固定模型做 FE,再冻结特征做 HPO”的顺序优化。

图 1. 现有方法与 CoFEH 的优化流程对比
因此,论文得到第三个判断:
Conclusion #3:有效的 AutoML 需要协同优化 LLM-based FE 和 BO-based HPO。
CoFEH 框架
为了解决上述问题,我们提出 CoFEH,一个面向端到端 AutoML 的协同优化框架。CoFEH 的目标不是单独优化 FE 或 HPO,而是在整个搜索过程中交替探索“特征工程流水线”和“模型超参数配置”的组合。
1. LLM 如何构建自由形式的特征工程流水线

图 2. CoFEH 的 LLM-based FE 工作流
CoFEH 将 FE 流水线构建视为一个序列决策问题。初始数据集是根节点,每执行一个特征操作,就会得到一个新的数据状态。整个 FE 搜索过程就变成了在树结构中寻找最优操作序列。具体而言,CoFEH 使用 MCTS 实现 Tree of Thought 搜索。
2. FE 与 HPO 如何协同
FE 和 HPO 本质上是相互依赖的。一个特征工程流水线的价值,需要在合适的模型超参数下才能被准确评估;反过来,超参数优化也依赖当前特征表示是否足够有效。CoFEH 通过双向条件化机制打通二者。
一方面,BO-based HPO 会被 FE 状态条件化。CoFEH 使用 meta-features 表征当前数据状态,并将其与超参数配置拼接起来作为 BO 代理模型的输入。这样,BO 不再只回答“哪个超参数更好”,而是回答“哪个数据状态和哪个超参数组合更好”。
另一方面,LLM-based FE 也会被 HPO 结果条件化。HPO 在某个数据状态上发现更好的模型配置后,会更新该节点及其祖先节点的性能上界,引导 MCTS 未来优先探索与强配置更协同的 FE 分支。
3. 动态分配 FE 与 HPO 预算
不同任务对 FE 和 HPO 的敏感性不同。有些数据集的瓶颈在特征表达,另一些数据集则更依赖模型配置。因此,CoFEH 将“下一步做 FE 还是 HPO”建模为一个多臂***问题,并使用 PUCB 策略动态调度。
实验结果
我们在 28 个公开数据集上评估 CoFEH,其中包括 19 个分类任务和 9 个回归任务。对比方法覆盖传统自动化 FE 方法和 LLM-based FE 方法,包括 OpenFE、MindWare、OCTree、ELLM-FT 和 LFG。主要实验结论如下:
1)只搜索 FE,使用默认下游模型超参数,CoFEH 获得最优平均排名 1.82,显著优于第二名 LFG 的 3.11。
2) 在统一预算下同时优化 FE 和 HPO,CoFEH 继续保持最优,平均排名达到 1.75。
3) CoFEH 从 Standalone FE 到 Joint FE+HPO 的平均改进为 7.03%,高于所有基线。
4) 在 CASH 和 MLP 两类下游模型设置中,CoFEH 也保持稳定优势,说明方法不依赖某个特定模型。
案例分析:从算子堆砌到语义特征工程
在 airfoil_self_noise 数据集上,CoFEH 展示了与传统方法和已有 LLM-based FE 方法明显不同的行为。该任务来自翼型风洞实验,目标是预测不同实验条件下的缩放自噪声。

图3. CoFEH方法与baselines方法搜索出的最优FE pipeline对比
CoFEH 生成的流水线具有清晰的领域语义:它先对高跨度数值特征进行稳定化处理,再基于空气动力学知识构造类似 Strouhal 数的特征 \(St = f \cdot c / U\),并结合攻角生成几何特征和交互项;随后继续进行分布变换、标准化和特征选择,最终得到紧凑且有效的特征表示。
我们发现,CoFEH 的流水线同时覆盖了特征变换、生成、预处理和特征选择。相比之下,OCTree、ELLM-FT、LFG 等 LLM-based 方法通常主要停留在特征生成,最多再配合简单选择,难以形成完整流水线;MindWare 等传统方法虽然包含预处理和变换等操作,但缺乏面向任务语义的特征构造能力。这个案例说明,CoFEH能够组织一条兼具领域语义和工程完整性的FE流水线。
总结
本文提出 CoFEH,将 LLM-based FE 与 BO-based HPO 协同起来,实现端到端 AutoML 优化。CoFEH 通过 Tree of Thought/MCTS 构建自由形式 FE 流水线,通过 mutual conditioning 打通 FE 与 HPO 的信息交互,并通过 dynamic optimizer selector 自适应分配搜索预算。实验表明,CoFEH 在 standalone FE 和 joint FE+HPO 两种设置下均优于传统 AutoML 与 LLM-based FE 基线,展示了 LLM 语义探索能力与 BO 数值优化能力结合的潜力。
ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows
作者: Wei Liu, Yang Gu, Xi Yan, Zihan Nan, Beicheng Xu, Keyao Ding, Bin Cui, Wentao Zhang
论文链接:https://arxiv.org/abs/2605.12376
背景与挑战
在数据科学 pipeline 中,表格处理(清洗、转换、增强、匹配)是基础但极易出错的环节。虽然大语言模型(LLM)展现了自动化潜力,但在面对模糊指令和复杂任务结构时,现有方法往往因缺乏对数据的结构化理解,导致生成的代码语法正确但语义错误。例如,面对“标准化货币列”这样的指令,现有工具要么无法识别具体数值格式,要么因全量扫描所有列而导致效率低下且充满噪声。核心痛点在于:静态、规则驱动的概要信息无法自适应地探索数据,难以在精度与效率间取得平衡

图1:概要揭示了模糊的指令暗含的信息,智能体主动采样货币列的具体取值,以实现准确的ISO4217映射。
方法
针对上述问题,我们提出了 ProfiliTable,首个以“动态概要(Dynamic Profiling)”为核心的自主多代理框架。它不再将概要视为被动的元数据读取,而是通过交互式探索、知识增强合成和反馈驱动优化,构建并迭代优化统一的执行上下文。
ProfiliTable 包含三个协同机制:
- 交互式探索: Profiler通过 ReAct 循环主动探索数据,仅探索必要信息以消除歧义,避免冗余计算。
- 知识增强合成: Generator利用 RAG 从算子库中检索预验证的算子模板,确保生成代码的领域特异性与可靠性。
- 反馈驱动优化: Evaluator-Summarizer联合模块提供执行评分与诊断洞察,指导 Profiler 和 Generator 进行迭代修正,实现从意图到验证的连贯推理。
其架构如图2所示,形成了一个自我改进的闭环流水线。

图2:ProfiliTable 的工作流:一个以动态概要为中心的自优化、闭环管道
实验
我们在涵盖 18 种表格处理任务类型的综合基准上进行了评估。实验表明,ProfiliTable 在单步和多步任务中均取得了 SOTA 性能。它的可运行率(CRR、TRR)是最高的,确保了生产部署所需的鲁棒性。同时,它在保持高精度的同时,token 消耗处于 Pareto 最优前沿,证明了框架在兼顾准确性与成本效率方面的巨大优势。
表1. 单步任务上ProfiliTable与基线方法效果对比

总结
我们提出了 ProfiliTable,这是一个基于动态概要的自主表格处理多智能体框架。实验表明,该方法在 GPT-4o 和 GPT-5.2 上均大幅超越基线,且是唯一在多步任务中实现 100% 任务级可运行率的方法,确保了代码部署的鲁棒性。此外,ProfiliTable 在准确率与成本之间达到了帕累托最优,证明了动态概要能同时实现高收益与低成本。这项工作确立了一种新范式——概要驱动的智能体,即通过迭代、交互和容错机制,将表格视为动态且语义丰富的对象进行处理。
实验室简介
北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。

评论 0