0
点赞
0
评论
0
转载
我要入驻

AAAI 2026 | PSEO: 基于超参数调优的后验堆叠集成优化框架

AAAI人工智能会议(AAAI Conference on Artificial Intelligence)由人工智能促进会(AAAI)主办,是人工智能领域历史最悠久的国际学术会议之一。AAAI2026将于2026年1月20日-27日在新加坡举办。PKU-DAIR实验室的论文《 PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning》被AAAI  2026 录用为Oral。

PSEO: Optimizing Post-hoc Stacking Ensemble Through Hyperparameter Tuning

作者:Beicheng Xu, Wei Liu, Keyao Ding, Yupeng Lu, Bin Cui

Github链接:https://github.com/PKU-DAIR/mindware
Arxiv链接:https://arxiv.org/pdf/2508.05144

 

一、问题背景与动机

核心问题:AutoML中的CASH(Combined Algorithm Selection and Hyperparameter Optimization)问题旨在自动化选择最优算法及其超参数。现代AutoML系统(如Auto-sklearn, AutoGluon, VolcanoML)普遍采用优化后集成(Post-Hoc Ensemble)策略,将搜索过程中产生的多个基模型组合,而非仅依赖单一最优模型。

主流AutoML系统(如AutoGluon、LightAutoML、H2O)已广泛采用stacking作为后验集成策略。 Stacking集成是一种分层的模型融合策略:它首先训练一组基模型(base models),然后使用一个融合模型(blender)来聚合这些基模型的预测结果。我们选择研究stacking的原因有三点:① 性能卓越:实验表明stacking效果优于bagging、boosting等主流集成方法。② 灵活性高:与依赖固定规则的集成方式不同,stacking的融合模型可以是任意算法,提供了丰富的设计空间。③ 通用性强:多数常见方法(如简单的加权平均或单层融合)本质上是one-layer stacking的特例。

从现有前沿AutoML系统的Stacking策略中,我们可以总结出三个缺陷:① 策略固定:现有系统在集成阶段普遍采用固定策略,无法适应具体任务特性。② 基模型选择低效:缺乏有效的基模型选择机制,未能平衡模型性能与多样性。③ 多层堆叠潜力未释放:虽支持多层堆叠,但层数受限且缺乏应对过拟合和特征退化的有效机制。

核心动机:提出PSEO(Post-hoc Stacking Ensemble Optimization)框架,首次将后验堆叠集成构建本身视为一个超参数优化问题,通过系统性调优释放集成学习的全部潜力。

 

二、集成优化流程

图 1. PSEO算法流程图

 

1. 流程概述

PSEO会先收集候选池中所有基模型在验证集上的预测结果,然后进入集成优化阶段,① 贝叶斯优化器首先基于已观测的配置-性能对集合拟合一个代理模型,随后通过最大化采集函数EI(x)在集成搜索空间内主动探寻最有潜力的下一组超参数配置。② 依据配置中指定的集成规模和多样性权重等参数,框架执行基模型子集选择并构建对应的堆叠集成。③对集成进行训练与评估以获得性能指标,并将新观测扩充至观测集中。如此迭代直至搜索预算耗尽,最终返回观测历史中表现最优的配置。具体实现上,PSEO采用概率随机森林作为贝叶斯优化的代理模型,并以期望改进作为采集函数来定量估计未探索配置可能带来的性能增益。

 

2. 基模型子集选择

在PSEO框架中,基模型子集选择作为首要环节被形式化为一个兼顾性能与多样性的组合优化问题。传统做法要么将所有候选模型纳入集成,导致计算开销巨大且可扩展性差;要么仅挑选每类算法中的最优个体,却忽视了多样性对 ensemble 泛化能力的关键作用。为此,PSEO提出了一种基于二元二次规划(BQP)的近似求解策略。

具体而言,方法首先构建一个误差协方差矩阵 G,其中对角线元素表示各模型在验证数据上的均方误差,非对角线元素则捕捉成对模型间预测误差的一致性程度——误差越不一致,意味着两者的错误模式差异越大,从而蕴含更高的多样性。为了在个体精度与模型间多样性之间实现可控权衡,引入超参数 ω 对协方差矩阵进行加权重塑,其中多样性项权重为 ω,性能项权重为 1−ω。最终,选择 n' 个基模型的子集被建模为最小化二次型 zᵀGz 的 BQP 问题,其中二元向量 z 的每个元素指示对应模型是否被选中。考虑到该问题的 NP-hard 特性,PSEO 采用半定规划(SDP)松弛技术进行高效求解。

 

3. 深度堆叠集成

基模型子集确定后,PSEO构建了一个层次化的深度堆叠结构。然而,随着堆叠层数加深,结构复杂度会带来两个问题:

  • 过拟合——指某些训练损失极低的预测特征在训练中占据主导地位,导致后续模型过度依赖而丧失泛化能力;解决方案:Dropout机制,借鉴神经网络的思想:对每个来自前一层的预测特征,基于其与训练标签的损失比值计算丢弃概率,训练损失越低的特征越可能被随机剔除,从而强制当前stacker从多样化特征中学习。
  • 特征退化——当某层stacker在样本外数据上产生低质量预测时,错误会在层级间逐级累积,造成性能持续衰减。解决方案:Retain机制,每层stacker的验证集性能将被与其层同位模型进行比较,若表现更差,则直接沿用前一层输出,否则保留当前结果。这种动态纠错策略确保了预测特征质量在层级间持续改进而非衰减。

 

4. 集成优化

表 1. 后验堆叠集成优化搜索空间

在上面的基础上,PSEO将整个集成构建过程形式化为一个超参数优化问题。如表2所示,我们有六个决定集成行为的关键超参数,PSEO采用贝叶斯优化进行系统性寻优。

 

三、实验结果

 

1. 实验设置

PSEO在80个OpenML真实数据集(50分类+30回归)上,与16种方法对比,包括单最优模型、3种单步集成学习方法、2种后验集成选择方法和9种现有AutoML的固定堆叠策略。

我们对所有数据集进行60%/20%/20%训练/验证/测试集划分。对于优化后集成的方案,我们首先使用VolcanoML运行3600秒CASH搜索,平均每任务生成437个基模型,作为所有这类方法的输入。然后这类方法会再进行3600秒的集成优化。而对于单步集成学习的方法,会直接进行7200秒的调优。

 

2. 基模型选择有效性验证

图 2. 不同基模型选择方案进行集成的平均测试集排名

我们首先验证基模型选择方案的有效性。在集成规模n'与多样性权重ω构成的30种固定组合下进行单层堆叠,并基于验证性能挑选最优组合(OPT)作为代表。同时纳入AutoML常用策略ALL(全部模型)和BEST(每类最优)作为基线。

实验结论表明:PSEO选择算法在18/29种配置下分别优于ALL/BEST策略,调优后的OPT组合以8.8的平均测试排名显著超越次优基线(12.3)。

 

3. Dropout与Retain有效性验证

图 3. Dropout和Retain的效果

为验证Dropout与Retain机制的有效性,实验选取30个基模型(多样性权重0.3)与集成选择(ES)作为融合模型进行测试。如图3(a)所示,在Dropout评估中,将丢弃率从0递增至0.4,每次训练ES五次并平均权重,结果显示主导模型的最大权重占比随丢弃率增加持续下降,且训练-测试误差差距同步缩小,证实其对过拟合的抑制作用。如图3(b)所示,Retain评估则通过计算每层stacker的测试误差改进率发现:未启用Retain时,特征质量在第二层达峰后迅速退化;启用后,跨层特征质量持续提升且无明显衰减。

 

4. 端到端比较

表 2. 集成算法在80个数据集的平均测试集表现排名

本节在80个真实CASH问题上将PSEO与最先进的基线方法进行比较。表3展示了不同数据集上的平均测试排名,在所有方法中,PSEO显著优于其他方法。 第二优的基线排名为6.19,而PSEO的排名为2.96。

图 4. 各算法归一化提升

归一化提升。 为进一步研究我们的结果,我们使用归一化改进的箱线图在图4中可视化所有方法在80个数据集上的相对性能分布。PSEO的相对性能分布优于所有基线。

 

5. 与AutoGluon比较

表 3. AutoGluon搜索空间上平均测试集表现排名

AutoGluon代表了具有多层堆叠的最先进AutoML系统。为更公平比较,我们复现了其搜索空间(包含108个带优先级的零样本模型)。我们使用AutoGluon训练基模型最长1小时,然后比较其与PSEO的集成算法。表4展示了在80个数据集上的平均测试排名。我们可以发现PSEO最优,平均排名为1.36。 综上所述,PSEO在两个系统(VolcanoML和AutoGluon)产生的候选池上取得持续成功,凸显了其鲁棒性和广泛适用性。

 

四、总结

在本文中,我们提出了 PSEO,一种高效优化框架,用于调整后处理堆叠集成。在 PSEO 中,我们提出了三个组件:一个基础模型子集选择算法,权衡单个模型性能与模型间的多样性;一个具有 Dropout 和 Retain 机制的深度堆叠集成;最后,一个贝叶斯优化器,用于寻找最佳集成策略。我们在 80 个公共数据集上评估了 PSEO,并证明了其优于竞争基线。

 

实验室简介

 

北京大学数据与智能实验室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR实验室)由北京大学计算机学院崔斌教授领导,长期从事数据库系统、大数据管理与分析、人工智能等领域的前沿研究,在理论和技术创新以及系统研发上取得多项成果,已在国际顶级学术会议和期刊发表学术论文200余篇,发布多个开源项目。课题组同学曾数十次获得包括CCF优博、ACM中国优博、北大优博、微软学者、苹果奖学金、谷歌奖学金等荣誉。PKU-DAIR实验室持续与工业界展开卓有成效的合作,与腾讯、阿里巴巴、苹果、微软、百度、快手、中兴通讯等多家知名企业开展项目合作和前沿探索,解决实际问题,进行科研成果的转化落地。


北京大学数据与智能实验室,PKU-DAIR,Peking University Data And Intelligence Research Lab,负责人为北京大学计算机学院崔斌教授。
返回顶部