技术综述|图像分类样本增广算法研究现状简述
来源: 黄翰/
华南理工大学
1378
0
0
2022-09-09

近年来,深度神经网络发展迅速,在很多场景中的表现已经优于人类。深度神经网络模型的质量与其训练数据集密切相关,如果没有足够的训练数据,深度神经网络很难捕捉到正确的数据特征。然而,现实生活中有时无法采集到足够的数据。例如,在2020年初新冠疫情爆发时,全世界都缺乏新冠病毒数据集。如果缺乏足够的数据,深度神经网络就会产生过拟合的问题,模型虽然在训练集上表现好,但是在测试集上却表现不佳。因此,样本增广算法作为能够增大数据集规模的技术被广泛应用于深度神经网络模型的训练中。

图1 过拟合模型与理想模型对比

图像分类领域的样本增广方法主要分为三类:传统样本增广方法、基于深度学习的样本增广方法和基于元学习的样本增广方法。

传统样本增广方法

传统样本增广方法主要是在图像层面基于局部不变性或者颜色空间进行增广。这类方法实现简单,在Pytorch、Tensorflow算法库中都有API可以直接调用,是图像分类领域中最常用的样本增广方法。传统样本增广方法的具体划分如图1所示,主要包含几何空间的转换颜色空间的转换,它们都是图像分类领域常用的增广方法。其中几何空间的转换包含图像翻转、图像旋转、图像裁剪,而颜色空间的转换则包含色彩空间的处理、滤波器处理和噪声增广等。除此之外还有一些其他的传统样本增广方法,比如图像区域删除[1]、图像拼接[2]、图像融合等。C:\Users\iais\AppData\Local\Microsoft\Windows\INetCache\Content.Word\传统样本增广方法.png

图2 传统样本增广方法

基于深度学习的样本增广方法

基于深度学习的样本增广方法主要包括生成对抗网络和神经风格转换两种。生成对抗网络(Generative Adversarial Networks, GAN)能够生成新的训练数据,用于训练出更好的分类模型。GAN是第一个通过对抗性训练进行模型训练的框架,主要由生成器和判别器构成。其中,生成器需要通过训练不断生成尽可能真实的图片来欺骗判别器,而判别器则要通过训练学会尽可能地把生成器生成的图片和真实图片区分开,两者的训练过程是一个零和博弈的过程。在生成器和判别器相互博弈和进步的过程中,GAN能生成一系列生动的新样本数据,最终用于分类模型的训练。如图2所示,GAN能生成一系列人脸图像,用于表情分类任务中[3]。

图3 GAN生成的不同表情人脸样本数据

神经风格转换是另一种基于深度学习的样本增强方法。它通过转换图像风格并保持图像的原始内容,以生成许多新的图像样本数据。神经风格转换的效果与色彩空间转换的效果有一定的相似性,但神经风格转换还支持艺术风格的转换,因而在一些与艺术相关的图像样本增广中得到广泛应用。

基于深度学习的样本增广方法从样本图像的特征空间进行样本增广,可以得到特征更加丰富的样本增广结果。然而,这类方法本身也有一定的缺陷,比如缺乏可解释性,并且训练一个样本增广方法需要大量的数据。因此,该方法并不是图像分类领域常用的样本增广方法。

基于元学习的样本增广方法

元学习是指用神经网络优化神经网络的思想,在神经架构搜索(Neural architecture search, NAS)[4]被提出后受到广泛关注。基于元学习的样本增广方法主要包括神经增广、智能增广和自动增广。

神经增广[5]是在神经风格转换的基础上融合元学习思想进行样本增广的方法,智能增广[6]是借鉴生成对抗网络思想并结合元学习思想的增广方法。与这两种方法相比,自动增广[7]因其令人称奇的增广效果而更受研究者关注。自动增广是基于强化学习的算法,其目标是在一组受约束的几何变化集合中搜索出最优的增广策略。自动增广算法通过学习得到的策略是由许多子策略组成的,每个子策略由一个图像变换操作和一个变换幅度强度系数组成。自动增广方法在ImageNet数据集上取得了很好的增广效果(如图3所示),分类准确率达到83.54%。令人意外的是,现有研究证明,在ImageNet数据集上搜索出来的增广策略在其他数据集上也是有效的,只是分类准确率稍有降低。自动增广算法的优良效果使得越来越多研究者投入到类似方法的研究中并提出了很多改进方法。

图4 自动增广算法在ImageNet数据集上的增广结果示例

基于元学习的样本增广方法是一种基于搜索思想的样本增广方法,其中的自动增广方法备受学界关注。近年来,自动增广方法在各大型数据集上表现优异,是今后样本增广算法研究的热点之一。

参考文献

[1] Z. Zhong, L. Zheng, G. Kang, et al, "Random erasing data augmentation," in Proceedings of the AAAI conference on artificial intelligence, 2020, vol. 34, no. 7, pp. 13001-13008.

[2] D. Walawalkar, Z. Shen, Z. Liu, et al, "Attentive cutmix: An enhanced data augmentation approach for deep learning based image classification, " in IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020.

[3] J. Y. Zhu, T. Park, P. Isola, et al, "Unpaired image-to-image translation using cycle-consistent adversarial networks, " in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2223-2232.

[4] B. Zoph, Q. V. Le, "Neural architecture search with reinforcement learning, " Science of the Total Environment, 2016.

[5] L. Perez, J. Wang, "The effectiveness of data augmentation in image classification using deep learning, " Convolutional Neural Networks Vis. Recognit, vol. 11, pp. 1-8, 2017.

[6] J. Lemley, S. Bazrafkan, P. Corcoran, "Smart augmentation learning an optimal data augmentation strategy, " IEEE Access, vol. 5, pp. 5858-5869, 2017.

[7] E. D. Cubuk, B. Zoph, D. Mané, et al, "AutoAugment: Learning augmentation policies from data, " in IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 113-123.

总编:黄翰

责任编辑:袁中锦

文字:阮子琦

图片:阮子琦

校稿:何莉怡

时间:2022年6月13日


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: