技术综述|神经结构搜索概述
来源: 黄翰/
华南理工大学
1813
0
0
2021-11-02
神经结构搜索 (Neural Architecture Search, NAS) 是自动机器学习 (Automated Machine Learning, AutoML) 的子领域,其目的是实现网络模型设计和选择过程自动化[2],降低网络模型设计难度和人力成本。本文将先介绍NAS的基本概念,再从优化的角度分析NAS问题和算法,最后简要介绍著名NAS算法——ENAS算法[3]。

 

图片

图1 搜索空间、搜索策略和性能评估方法在NAS中的关系

NAS有三个基本要素:搜索空间、搜索策略和性能评估策略。搜索空间是一个包含多种网络结构的离散空间。我们可以将搜索空间看成是一个集合,集合中的每个元素代表一种候选网络结构。搜索空间一般都是人工定义的。如图1,早期的NAS算法的思路和人工不断设计新的网络结构进行实验试错的方式十分相似。研究者们设计出搜索策略从搜索空间中挑选出一个候选网络结构,训练到收敛并对模型性能进行评估。在下一次迭代中,算法会根据模型性能评估结果从搜索空间中挑选另一个候选网络结构进行训练和评估。搜索策略和性能评估方法代替了人工设计实验,实现模型设计过程自动化,从而减少了人力成本。这也是现在大部分NAS算法的基本流程。

 

图片

图2 从优化的角度看待NAS问题

考虑到网络模型训练和评估的计算代价,单靠上述流程NAS需要消耗巨大的计算资源才能完成从搜索空间中搜索出性能最佳的网络结构。因此,NAS算法的研究工作主要集中在三个方向:简化搜索空间、设计更合适的搜索策略以及提出更高效的搜索性能评估方法。我们可以从优化的角度看待这三个研究方向。如图2,NAS问题可以看成是一个优化问题,从搜索空间的起点逐步逼近搜索空间中的最优解。简化搜索空间是通过先验知识从搜索空间中剔除性能较差的网络结构,避免在这些结构上浪费计算资源。设计更合适的搜索策略能够缩短搜索的路径。提出更高效的搜索性能评估方法则能够缩短单个网络结构的评估时间。

在简化搜索空间方面,NASNet[4]、ENAS[3]和Block-QNN[5]方法对细小的单元结构进行搜索,继而使用这些单元堆叠成最终的网络模型。在结构较小的单元上进行搜索时,搜索空间规模缩小,从而减少了需要评估的模型数量。例如ENAS使用NAS搜索出新的RNN单元,然后替换原网络中的RNN单元。在设计搜索策略方面,目前比较高效的方式是将在离散搜索空间上的优化问题转化为对连续变量的优化问题。DARTS框架[6]调整了NAS的任务的建模表示,设计出连续的搜索空间,让使用梯度来优化网络结构成为可能。在提出性能评估方法方面,NAS不必对网络结构训练到收敛来进行评估。因为NAS的目的是对搜索空间中候选网络结构的性能进行排名,所以NAS可以采用不完整的训练过程来减少NAS所需要的算力。ENAS算法是首个使用该思想的NAS算法。下文将简要介绍ENAS算法的建模方法和算法流程。

 

图片

图3 将搜索空间建模为DAG

ENAS将搜索空建模为一个巨大的有向无环图(DirectedAcyclic Graph, DAG)。其中计算图的节点表示数据,边表示数据节点之间所经过的数据变换操作。如图3,NAS的搜索空间所包含的候选网络结构在建模为 DAG后可被看作某个巨大的计算图的子图。图(a)为搜索空间,每个数据节点之间存在2种操作变换的可能;图(b)为某个候选网络结构,加粗实线表示节点之间实际经过的变换操作。这样设计搜索空间的好处是使得不同的候选网络模型可以通过该计算图共享权重,避免了不同候选网络结构权重的重复计算。某个DAG的子图可以用邻接矩阵表示,因此ENAS使用结构矩阵来表示搜索空间中的某个具体候选网络结构。

 

图片

图4 ENAS算法流程

ENAS算法的主要流程如图4所示,控制器网络生产概率分布采样得到表示候选网络模型的结构矩阵。候选网络模型在验证集上的损失用于优化控制器网络权重,在训练集上的损失用于优化超计算图的权重。实线表示前向生成模型和预测,虚线表示用于训练的损失回传。ENAS寻找最优结构矩阵的过程实际就是对控制器网络权重优化的过程。在该流程中,需要优化的权重有两部分:控制器网络权重和超计算图的权重。ENAS采用交替优化的方式进行。第一步,ENAS固定结构控制器网络权重,使用训练集中的一个最小批优化超计算图权重。第二步,ENAS固定超计算图权重,使用验证集中的一个最小批优化控制器网络权重。也就是说,每次进行权重更新的时候,ENAS只会优化结构或者权重。

2018年,ENAS算法极大地提高了NAS计算效率,是当时最高效的NAS算法。目前很多先进的NAS算法基于ENAS算法进行改进。当然,ENAS权重共享方式也存在着一些缺陷。例如,其中权重共享可能引起候选模型评估的公平性问题。部分候选模型的准确率较高不是因为其结构合理,而是因为它们在之前随机采样中被多次选中,这些候选模型的权重也因此得到了更多的训练。经过训练的模型比未经过训练的模型在验证集上有更高的准确率,在结构优化时前者被选择的概率会增加。因此,这样的公平性问题可能会导致NAS得到的是一个局部最优解,而非全局最优解。目前还没有相关研究分析公平性对NAS的影响以及如何处理该问题。基于权重共享的公平性问题或许会是权重共享机制的NAS算法的后续研究方向。

参考文献

[1] Elsken T, Metzen J H, Hutter F. NeuralArchitecture Search: A Survey.[J]. Journal of Machine Learning Research, 2019,20(55): 1-21.

[2] Cheng X, Zhong Y, Harandi M, et al.Hierarchical Neural Architecture Search for Deep Stereo Matching[C]. LarochelleH, Ranzato M, Hadsell R, et al. Advances in Neural Information ProcessingSystems 33: Annual Conference on Neural Information Processing Systems 2020,NeurIPS 2020, December 6-12, 2020, Virtual. 2020.

[3] Pham H, Guan M, Zoph B, et al. Efficient NeuralArchitecture Search via Parameters Sharing[C]. International Conference onMachine Learning. PMLR, 2018: 4095-4104.

[4] Zoph B, Vasudevan V, Shlens J, et al. LearningTransferable Architectures for Scalable Image Recognition[C]. 2018 IEEEConference on Computer Vision and Pattern Recognition, CVPR 2018, Salt LakeCity, UT, USA, June 18-22, 2018. IEEE Computer Society, 2018: 8697-8710. [5]Zhong Z, Yan J, Wu W, et al. Practical Block-Wise Neural Network ArchitectureGeneration[C]. 2018 IEEE Conference on Computer Vision and Pattern Recognition,CVPR2018, Salt Lake City, UT, USA, June 18-22, 2018. IEEE Computer Society,2018: 2423-2432.

[6] Liu H, Simonyan K, Yang Y. DARTS:Differentiable Architecture Search[C]. 7th International Conference on LearningRepresentations, ICLR 2019, New Orleans, LA, USA, May 6-9, 2019.OpenReview.net, 2019

-END-

总编:黄翰

责任编辑:袁中锦

文字:梁展宁

图片:梁展宁

校稿:何莉怡

时间:2021年06月25日


登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: