ACM SIGKDD Conference on Knowledge Discovery and Data Mining 是数据挖掘与知识发现领域的顶级国际会议之一。KDD 2026 将于 2026 年 8 月 9 日至 13 日在韩国济州岛举办。

CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization

作者：Beicheng Xu, Keyao Ding, Wei Liu, Yupeng Lu, Bin Cui

代码链接：https://github.com/PKU-DAIR/cofeh

Arxiv 链接：https://arxiv.org/pdf/2602.09851

问题背景与动机

一个标准的监督学习流程可以拆成两个相互关联的子问题：一是对数据进行特征工程（FE），二是对下游模型进行超参数优化（HPO）。

从 FE 的角度看，传统 AutoML 为了让搜索可控，通常依赖有限算子库和固定流程模板，因此难以利用领域语义，也难以构建真正自由的 FE 流水线。LLM 具备语义推理和代码生成能力，为突破这一限制提供了可能。但现有 LLM-based FE 方法大多仍局限于孤立子任务，尤其是特征生成。因此，论文得到第一个判断：

Conclusion #1：FE 是语义密集型任务，LLM 适合承担 FE 设计。

从超参数调优的角度看。贝叶斯优化（BO）长期以来都是 HPO 中最主流的方法之一。相比之下，直接用 LLM 做 HPO 往往缺乏明确的目标代理模型和不确定性估计，也难以稳定利用完整优化历史。因此，论文得到第二个判断：

Conclusion #2：在 HPO 中，BO 仍然是更可靠的核心优化器。

这两个判断放在一起，就形成了本文最核心的矛盾：LLM 更适合做 FE，BO 更适合做 HPO，但真正的 AutoML 目标并不是分别把二者做好，而是联合优化一条完整机器学习流水线。现有方法通常有两类选择。传统 AutoML 可以把 FE 和 HPO 放进同一个同质搜索空间中联合优化，但代价是 FE 空间被大幅限制。LLM-based FE 方法则常常采用异质优化器：LLM 负责 FE，BO 负责 HPO。但由于二者表示空间不同，实际流程往往退化成“先固定模型做 FE，再冻结特征做 HPO”的顺序优化。

图 1. 现有方法与 CoFEH 的优化流程对比

因此，论文得到第三个判断：

Conclusion #3：有效的 AutoML 需要协同优化 LLM-based FE 和 BO-based HPO。

CoFEH 框架

为了解决上述问题，我们提出 CoFEH，一个面向端到端 AutoML 的协同优化框架。CoFEH 的目标不是单独优化 FE 或 HPO，而是在整个搜索过程中交替探索“特征工程流水线”和“模型超参数配置”的组合。

1. LLM 如何构建自由形式的特征工程流水线

图 2. CoFEH 的 LLM-based FE 工作流

CoFEH 将 FE 流水线构建视为一个序列决策问题。初始数据集是根节点，每执行一个特征操作，就会得到一个新的数据状态。整个 FE 搜索过程就变成了在树结构中寻找最优操作序列。具体而言，CoFEH 使用 MCTS 实现 Tree of Thought 搜索。

2. FE 与 HPO 如何协同

FE 和 HPO 本质上是相互依赖的。一个特征工程流水线的价值，需要在合适的模型超参数下才能被准确评估；反过来，超参数优化也依赖当前特征表示是否足够有效。CoFEH 通过双向条件化机制打通二者。

一方面，BO-based HPO 会被 FE 状态条件化。CoFEH 使用 meta-features 表征当前数据状态，并将其与超参数配置拼接起来作为 BO 代理模型的输入。这样，BO 不再只回答“哪个超参数更好”，而是回答“哪个数据状态和哪个超参数组合更好”。

另一方面，LLM-based FE 也会被 HPO 结果条件化。HPO 在某个数据状态上发现更好的模型配置后，会更新该节点及其祖先节点的性能上界，引导 MCTS 未来优先探索与强配置更协同的 FE 分支。

3. 动态分配 FE 与 HPO 预算

不同任务对 FE 和 HPO 的敏感性不同。有些数据集的瓶颈在特征表达，另一些数据集则更依赖模型配置。因此，CoFEH 将“下一步做 FE 还是 HPO”建模为一个多臂***问题，并使用 PUCB 策略动态调度。

实验结果

我们在 28 个公开数据集上评估 CoFEH，其中包括 19 个分类任务和 9 个回归任务。对比方法覆盖传统自动化 FE 方法和 LLM-based FE 方法，包括 OpenFE、MindWare、OCTree、ELLM-FT 和 LFG。主要实验结论如下：

1）只搜索 FE，使用默认下游模型超参数，CoFEH 获得最优平均排名 1.82，显著优于第二名 LFG 的 3.11。

2）在统一预算下同时优化 FE 和 HPO，CoFEH 继续保持最优，平均排名达到 1.75。

3） CoFEH 从 Standalone FE 到 Joint FE+HPO 的平均改进为 7.03%，高于所有基线。

4）在 CASH 和 MLP 两类下游模型设置中，CoFEH 也保持稳定优势，说明方法不依赖某个特定模型。

案例分析：从算子堆砌到语义特征工程

在 airfoil_self_noise 数据集上，CoFEH 展示了与传统方法和已有 LLM-based FE 方法明显不同的行为。该任务来自翼型风洞实验，目标是预测不同实验条件下的缩放自噪声。

图 3. CoFEH 与基线方法在 airfoil_self_noise 上发现的最优 FE 流水线

图3. CoFEH方法与baselines方法搜索出的最优FE pipeline对比

CoFEH 生成的流水线具有清晰的领域语义：它先对高跨度数值特征进行稳定化处理，再基于空气动力学知识构造类似 Strouhal 数的特征 \(St = f \cdot c / U\)，并结合攻角生成几何特征和交互项；随后继续进行分布变换、标准化和特征选择，最终得到紧凑且有效的特征表示。

我们发现，CoFEH 的流水线同时覆盖了特征变换、生成、预处理和特征选择。相比之下，OCTree、ELLM-FT、LFG 等 LLM-based 方法通常主要停留在特征生成，最多再配合简单选择，难以形成完整流水线；MindWare 等传统方法虽然包含预处理和变换等操作，但缺乏面向任务语义的特征构造能力。这个案例说明，CoFEH能够组织一条兼具领域语义和工程完整性的FE流水线。

总结

本文提出 CoFEH，将 LLM-based FE 与 BO-based HPO 协同起来，实现端到端 AutoML 优化。CoFEH 通过 Tree of Thought/MCTS 构建自由形式 FE 流水线，通过 mutual conditioning 打通 FE 与 HPO 的信息交互，并通过 dynamic optimizer selector 自适应分配搜索预算。实验表明，CoFEH 在 standalone FE 和 joint FE+HPO 两种设置下均优于传统 AutoML 与 LLM-based FE 基线，展示了 LLM 语义探索能力与 BO 数值优化能力结合的潜力。

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

作者： Wei Liu, Yang Gu, Xi Yan, Zihan Nan, Beicheng Xu, Keyao Ding, Bin Cui, Wentao Zhang

论文链接：https://arxiv.org/abs/2605.12376

背景与挑战

在数据科学 pipeline 中，表格处理（清洗、转换、增强、匹配）是基础但极易出错的环节。虽然大语言模型（LLM）展现了自动化潜力，但在面对模糊指令和复杂任务结构时，现有方法往往因缺乏对数据的结构化理解，导致生成的代码语法正确但语义错误。例如，面对“标准化货币列”这样的指令，现有工具要么无法识别具体数值格式，要么因全量扫描所有列而导致效率低下且充满噪声。核心痛点在于：静态、规则驱动的概要信息无法自适应地探索数据，难以在精度与效率间取得平衡

图1：概要揭示了模糊的指令暗含的信息，智能体主动采样货币列的具体取值，以实现准确的ISO4217映射。

方法

针对上述问题，我们提出了 ProfiliTable，首个以“动态概要（Dynamic Profiling）”为核心的自主多代理框架。它不再将概要视为被动的元数据读取，而是通过交互式探索、知识增强合成和反馈驱动优化，构建并迭代优化统一的执行上下文。

ProfiliTable 包含三个协同机制：

交互式探索： Profiler通过 ReAct 循环主动探索数据，仅探索必要信息以消除歧义，避免冗余计算。
知识增强合成： Generator利用 RAG 从算子库中检索预验证的算子模板，确保生成代码的领域特异性与可靠性。
反馈驱动优化： Evaluator-Summarizer联合模块提供执行评分与诊断洞察，指导 Profiler 和 Generator 进行迭代修正，实现从意图到验证的连贯推理。

其架构如图2所示，形成了一个自我改进的闭环流水线。

图2：ProfiliTable 的工作流：一个以动态概要为中心的自优化、闭环管道

实验

我们在涵盖 18 种表格处理任务类型的综合基准上进行了评估。实验表明，ProfiliTable 在单步和多步任务中均取得了 SOTA 性能。它的可运行率（CRR、TRR）是最高的，确保了生产部署所需的鲁棒性。同时，它在保持高精度的同时，token 消耗处于 Pareto 最优前沿，证明了框架在兼顾准确性与成本效率方面的巨大优势。

表1. 单步任务上ProfiliTable与基线方法效果对比

总结

我们提出了 ProfiliTable，这是一个基于动态概要的自主表格处理多智能体框架。实验表明，该方法在 GPT-4o 和 GPT-5.2 上均大幅超越基线，且是唯一在多步任务中实现 100% 任务级可运行率的方法，确保了代码部署的鲁棒性。此外，ProfiliTable 在准确率与成本之间达到了帕累托最优，证明了动态概要能同时实现高收益与低成本。这项工作确立了一种新范式——概要驱动的智能体，即通过迭代、交互和容错机制，将表格视为动态且语义丰富的对象进行处理。

实验室简介

北京大学数据与智能实验室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR实验室）由北京大学计算机学院崔斌教授领导，长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究，在理论和技术创新以及系统研发上取得多项成果，已在国际顶级学术会议和期刊发表学术论文200余篇，发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作，与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索，解决实际问题，进行科研成果的转化落地。

KDD 2026 | PKU-DAIR 实验室两项成果被 KDD 2026 录用

实验室简介

评论 0

近期热门新闻

下一篇