
当前以深度学习为核心的人工智能技术,普遍面临高质量样本数据依赖度高、小样本泛化能力弱、黑盒化可解释性不足三大共性核心难题,这也是制约AI技术从实验室走向规模化产业落地的行业共性瓶颈。针对这一痛点,智能算法研究中心在人工智能领域国际顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence发表最新研究成果,提出了一套基于微搜索的可解释数据增强新范式,为破解小样本场景下的AI模型性能瓶颈提供了全新解决方案。
一、行业痛点:高质量数据稀缺,AI就迈不过落地的坎
人工智能视觉模型的性能,高度依赖大规模高质量标注数据。但在医疗影像、工业缺陷检测等绝大多数真实场景中,高质量标注数据获取成本高、样本稀缺,而少样本场景下分类模型极易过拟合、泛化能力直接骤降,这已经成为制约AI技术落地的一项核心瓶颈。
针对这一难题,学术界现有方案始终无法突破固有缺陷:一类是以AutoAugment、CutMix为代表的预定义变换方法,靠人工规则或神经网络反馈做数据增强,却完全忽略数据本身的特征分布,极易生成分布偏移的无效样本,少样本场景下效果更差;另一类是以DDPM扩散模型为代表的生成式方法,需要海量数据预训练,少样本场景下根本学不到有效数据分布,同时模型完全黑盒,无法从理论上保证增强样本的有效性。

图1 本研究正样本增强问题优化模型
而这些方案背后,潜藏着学术界长期未能攻克的核心难点:正样本增强本质上是一个超高维非凸优化问题。该问题的建模方式如图1所示,优化目标为保证增强数据集与原始数据集的特征分布仅存在微小差异,即保持特征分布均值不变、仅允许标准差小幅差异。以包含1万张32×32彩色图像的数据集为例,其增强优化的决策空间维度超3000万;加之问题本身的非凸特性,现有优化算法极易陷入维度灾难:要么计算成本呈指数级激增,要么频繁陷入局部最优,难以生成与原始数据分布一致的有效增强样本。这正是学术界长期无法通过可解释优化方法实现高质量正样本增强的根本原因。

图2 现有数据增广方法与本论文方法框架对比
二、核心突破:流形微搜索,一招破解高维优化难题
如图3所示,针对上述痛点,我们基于流形假设与微搜索理论,提出流形启发式优化算法(MHOA)[1],构建了“分布保持优先”的可解释正样本增强管线,从根源上解决了高维数据增强的维度灾难问题。

图3 MOHA与流形学习方法对比
如图2所示,流形学习的核心逻辑,是现实世界中的高维数据(如图像、文本等)虽然存在于高维空间中,但实际上近似分布在某个低维流形附近,通过对低维流形的定向搜索有望实现问题的高效求解。作者基于流形学习的核心假设发现:图像的目标轮廓像素,正是承载类别语义的低维流形核心载体,其邻域就是我们要找的有效决策子空间。

图4 论文方法(MHOA)框架图
基于这一核心发现,本研究实现了两大维度的创新突破:
1.理论范式重构:首次将正样本增强形式化为可解释的特征分布对齐优化问题,通过严格的数学约束保证增强样本与原始数据的独立同分布,彻底解决了传统方法分布偏移的核心痛点;
2.算法核心突破:提出 MHOA 流形启发式优化算法,将超高维非凸优化问题,压缩至关键轮廓像素邻域的低维空间中求解,用流形学习思想破解了维度灾难与非凸约束,让正样本增强的超高维非凸优化求解成为可能;
方法为什么能起效?
本研究算法把99%的无效搜索空间直接剔除,将全部算力聚焦在包含最优解的低维流形子空间上,既大幅提升了优化效率,又从理论上保证了生成样本与原始数据的流形结构完全贴合——既能为模型提供足够的训练多样性,又不会引入分布偏移的噪声样本,最终实现模型精度与泛化能力的双重提升。
三、实验效果:全面超越主流SOTA 方法
本研究在Mini-ImageNet、CUB200、CIFAR-FS三大国际通用基准数据集,以及GoogleNet、ResNet系列等四大主流分类网络上,与十余种国际主流增强SOTA方法开展了系统性对比实验,结果显示:
1.在少样本特性最突出的 CUB200 数据集上,MHOA 使ResNet50 网络的Top-1分类精度提升24.03%,GoogleNet 精度较AugMix、CutMix、DDPM 等经典方法最高提升19.62%;

图5 论文方法(MHOA)与无增强方法(Baseline)结果对比
2.消融实验验证,基于流形的微搜索策略是性能提升的核心,全图搜索的变体算法精度较 MHOA 最高下降34.98%;

图6 论文方法(MHOA)与全局搜索变体(MOHA-V2)增强图对比
3.在 Mini-ImageNet、CUB200、CIFAR-FS 三大基准数据集与四大主流分类网络的绝大多数测试场景中,MHOA显著优于CutMix、MixUp、AutoAugment、TrivialAugment 等最新传统数据增强 SOTA 算法;尤其对比DDPM 扩散模型等生成式大模型增强方法,MHOA 在少样本场景下优势极具突破性(CUB200 数据集上Top-1 分类精度较DDPM 提升超19%)。

图7 论文方法(MHOA)与现有SOTA方法对比结果(部分)
四、价值意义:从学术创新到产业落地
从学术价值来看,本研究打破了数据增强必须依赖神经网络反馈的传统范式,为数据增强提供了一套全新的流形微搜索方法论。
从产业应用前景来看,本研究有望解决了真实场景中“标注数据少、获取成本高”的核心痛点。算法具备强可解释、低算力依赖、少样本场景效果突出的特性,可完美适配肿瘤医学影像[2]、工业缺陷检测等标注稀缺场景,也能为具身智能的感知与决策模块提供高效数据增强支撑。
数据不足,算法来造。本研究用可解释的启发式优化,为AI模型泛化能力的提升,开辟了一条全新的可靠路径。
参考文献:
[1] Liu F , Huang H , Feng F ,et al.Positive Data Augmentation Based on Manifold Heuristic Optimization for Image Classification[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, PP[2026-04-05].DOI:10.1109/TPAMI.2026.3657249.
[2] Huang H , Chen W , Wu Q ,et al.T2WI-BCMIC: Non-Fat Saturated T2-Weighted Imaging Dataset forBladder Cancer Muscle Invasion Classification[C]//International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2026.DOI:10.1007/978-3-032-05169-1_55.
图/文:刘方青
学者网

评论 0