抠图技术的前世今生

来源: 黄翰/

华南理工大学

3653

2020-06-23 11:38:44

2021-09-02

对当下很多年轻人来说，结束一天的工作后，躺在沙发上，打开电视看看喜爱的电视剧和电影便是一天中最好的消遣。那么今天大家所看到的电影和电视剧的各种特效又是如何制作出来的呢，一切都要从一块绿色的幕布讲起……

影视行业的特效技术一直与图像合成技术息息相关，1984年Thomas Porter等人提出了基于alpha透明度通道的图像合成方法[1]，该方法根据待合成图像的每一个像素点所对应的透明度遮罩进行图像合成。将一张图像中的前景部分合成到新的背景图像中的方式如图1所示。

图1 图像合成方式

特效制作时，常常需要将人物作为前景提取出来，然后使用图像合成技术将人物放入新的特效背景中。然而，进行图像合成前又该如何确定前景呢，下面就来介绍今天的主角：抠图技术。

抠图技术与图像合成相反，是一种根据合成图像求取前景透明度遮罩，从而提取前景的技术。在影视行业中，首先出现了绿幕、蓝幕技术，能够在背景已知并且单一的情况下进行抠图，由于人类的皮肤很少有绿色和蓝色的成分，所以特效制作中常使用绿色或者蓝色的幕布，如图2所示。

图2 天气预报中使用绿幕技术

拍摄电影和电视剧时，可以提前准备绿幕或者蓝幕进行拍摄，之后再进行后期的抠图与图像合成。然而日常生活中，人们不可能一直拿着绿色幕布进行拍照，如果要使抠图技术能够在更多的领域得到应用，那么一定需要一种更加自由的抠图技术。因此，在绿幕、蓝幕抠图技术出现之后，研究人员又提出了拍摄条件更加自由的自然抠图技术。

Mark Ruzon与Carlo Tomasi等人提出的Ruzon-Tomasi抠图与Berman Arie等人提出的Knockout抠图是最早的自然抠图技术，该类技术针对日常生活中的普通图片，不用要求背景已知且固定，只需要原图和一张名为三分图的辅助图就能进行完美的抠图。自然抠图的过程如图3所示。

图3 自然抠图

虽然看上去很简单，但事实上自然抠图是一个非常复杂的难题。抠图问题的核心在于求解图像合成方程，RGB颜色空间中合成方程的方程组形式如图4所示。

图4 合成方程的方程组

在这个方程组中，只有待处理图像的像素颜色I已知，而前景F、背景B以及透明度遮罩都是未知量，所以抠图问题需要求解一个拥有3个方程、7个未知量的方程组。

绿幕、蓝幕抠图技术通过固定背景颜色的方式，将未知量减少到4个，进行方程的近似求解。然而自然抠图中无法确定背景颜色，所以自然抠图必须直面这一个拥有3个方程、7个未知量的方程组。

要求解这个未知量极多的欠定问题，需要对这个问题进行约束，三分图就拥有着这样的作用。对于用户来说，大致地识别待处理图像的前景与背景并不困难，抠图之前可以人为地标注出透明度遮罩为1的前景区域以及透明度遮罩为0的背景区域，再将前景区域与背景区域的交界处作为透明度遮罩未知区域标注出来，生成一张分为三个区域的三分图。因此，自然抠图技术的关键在于：如何在三分图的约束下，利用已知前景与已知背景区域的信息去求解未知区域的透明度遮罩。

对于未知区域的一个像素，如果能够估算出其所对应的前景和背景，那么合成方程中的未知量将会减少到只有透明度遮罩一个，从而近似地求解透明度遮罩，解决抠图问题。基于采样的抠图技术便采用这个思想，通过采集与未知区域相邻的前景和背景区域的像素，进行前景像素和背景像素的估计，再进一步求解出透明度遮罩值。

最初的自然抠图算法大都是基于采样的思想，包括Ruzon-Tomasi抠图算法以及Yung-Yu Chuang等人提出的Bayesian抠图算法等，这些抠图算法针对未知区域的像素，首先采集距离未知区域较近的前景与背景区域的像素作为样本点，然后利用统计分布模型进行求解，此类抠图算法是一种有参的方法。

然而如毛发，复杂纹理等特征无法用简单的分布进行描述，早期的基于采样的抠图技术无法很好地提取分布复杂的特征。

此外，早期的基于采样的抠图技术一般有着这样的前提假设：只需要通过距离未知区域较近的前景与背景区域的像素，就能够根据统计分布估算出未知区域的透明度遮罩。所以此类抠图算法在样本采集时只考虑距离未知区域较近的像素，对采样方法并没有过多的研究。如果待处理图像中出现孔洞特征，位于孔洞内的像素点所对应的最优背景像素点可能距离较远，无法进行正确处理。孔洞特征如图5所示。

图5 具有孔洞的图像

在Ruzon-Tomasi与Bayesian等算法被提出之后，出现了一种不依赖于统计分布的抠图技术，也是一种无参的抠图技术，这种技术不再完全依赖于前景、背景以及未知区域的统计分布，而是针对未知区域的每一个像素，直接从采集到的样本中选取一对或者多对较优的前景背景像素对，以此进行透明度遮罩的估计。与此同时，无参的抠图技术开始探索不同的采样策略，不再满足于局部采样。

2007年Jue Wang等人提出了Robust抠图算法，对于一个未知区域的像素，首先使用Bayesian抠图中的采样方法，采集邻近的前景与背景像素作为样本，然后在此基础上离散地对邻近前景边界与背景边界的区域进行采样。采样完成后通过颜色失真，空间距离相近等评价标准选出数个较优的像素，结合基于传播的方法进行透明度遮罩的估计。之后Eduardo Gastal等人提出的shared抠图采用了一种更简单的采样方法，并且通过将未知区域划分为小窗口的方式进行快速处理，能够达到实时抠图的要求。

然而在图像较为复杂的情况下，shared等抠图算法可能在采样阶段无法采集到较优的像素，为了降低采样过程中丢失最优像素对的概率，global抠图被Kaiming He等人提出，该方法针对整个前景边缘和背景边缘进行采样，不再仅限于采集距离未知区域像素较近的前景背景像素作为样本。之后Ehsan Shahrian等人又提出了Comprehensive抠图，开始在前景边缘和背景边缘之外的区域进行采样，进一步缓解最优像素对丢失问题。不同算法的采样区域如图6所示。

图6 不同算法的采样区域

基于采样的抠图算法利用从前景区域与背景区域采集到的样本对合成方程中的前景像素与背景像素进行估计，在已知前景与背景区域较小的情况下，很难精确地采集样本。实际情况中，用户自然不愿意花费大量精力制作三分图，如果要在未知区域较大的情况下进行抠图，那么需要从另一个角度去解决抠图问题。

基于传播的抠图技术不再对前景与背景进行直接估计，而是对图像空间进行某些假设并以此建立模型，直接对透明度遮罩值进行求解。因此，基于传播的抠图技术对精确三分图的依赖性一般低于基于采样的抠图技术，在未知区域较大的情况下其抠图精度高于基于采样的抠图技术。

2004年Jian Sun等人提出了Poisson抠图，该方法通过Poisson方程进行透明度遮罩的传播，在此之后Anat Levin等人提出Closed-Form抠图，建立了前景与背景局部color-line模型，推导出透明度遮罩的闭合解。这些算法的假设前提都是图像局部平滑，然而图像中某些复杂特征并不满足这一特性，如毛发，透明袋等。于是研究人员又提出了非局部的基于传播的抠图技术，2011年由Philip Lee等人提出的Nonlocal抠图算法在Closed-Form的基础上面引入非局部原则，之后又出现了由Qifeng Chen等人提出的Knn抠图以及其他非局部的抠图技术，相比于局部的基于传播的抠图技术，非局部的基于传播的抠图技术能够处理更复杂的特征，拥有更高的精度。

然而，无论是基于传播的抠图技术还是基于采样的抠图技术，都只是根据图像中的低级特征信息进行假设，很难处理不符合一般规律的复杂特征。如今，深度学习开始在越来越多的领域得到应用，于是研究人员开始探索如何利用深度学习解决抠图问题。

Donghyeon Cho等人首先在基于传播的抠图技术的基础上，通过深度学习的方式将局部与非局部的抠图技术结合起来[2]。与此同时，基于深度学习的方法必然需要大量数据集，抠图算法一般使用的基准数据集只有27组用于训练的图片，即使使用数据增强的方法，依然无法达到精确训练所需要的数据量。于是Ning Xu 等人建立了更大的数据集，并且提出了一种直接运用深度学习思想的抠图方法[3]，建立encoder-decoder网络，将原图像以及三分图作为输入，透明度遮罩作为输出，之后再建立一个refinement网络对透明度遮罩进一步优化。

相比于传统的抠图技术，基于深度学习的抠图技术能够利用更深层次的特征信息，拥有更高的精度。然而，用于训练的数据依然有限，因此深度学习的训练结果不一定拥有较高的泛化能力。

前面已经提及到无参的基于采样的抠图算法，首先对已知前景区域和已知背景区域进行采样，然后在样本中选出最优的像素对，通过最优像素对进行透明度遮罩的估计。其中采样环节是这类算法的一个重点，一般来说，采样区域越大，最优像素对丢失的可能性就越小。因此，如果将整个已知前景区域和已知背景区域都作为采样空间，在整个区域中搜索最优像素对，那么一定不会出现最优像素对丢失的问题。然而，这必然是一个极大的搜索空间，对于一个常见的800*600像素的图片，假设前景区域像素，背景区域像素以及未知区域像素的数量相同，那么针对每一个未知区域的像素，都有(1.6E+05)*(1.6E+05)=2.56E+10个像素对，而且对于每一个未知区域的像素，都需要从2.56E+10的搜索空间中去搜索对应的最优像素对，如果使用穷举法搜索，计算成本难以想象。

基于搜索的抠图技术的目标就是设计一种能够在如此巨大的搜索空间中找到最优像素对的搜索方法，从而解决最优像素对丢失问题。在global抠图算法中，研究人员采集整个前景区域边缘以及背景区域边缘作为样本，样本数量已经远远超过普通的基于采样的抠图算法，使用遍历搜索的方法效率极低。所以研究人员首先根据前景区域像素与背景区域像素建立二维的搜索空间，如图7所示，然后根据由Connelly Barnes等人提出的 PatchMatch随机搜索策略进行搜索。基于搜索的抠图技术与基于采样的抠图技术的关系如图8所示。

图7 搜索空间

图8 基于采样与基于搜索的抠图技术之间的关系

然而，在面对整个前景区域与背景区域时，搜索空间更大并且更为复杂，该方法的鲁棒性较低。启发式搜索方法是一种基于直观或经验构造的算法，拥有自学习功能，能够在可接受的计算成本内去搜寻最优的解。所以在由前景区域和背景区域所组成的巨大且非凸的搜索空间中，启发式搜索方法能够大展身手。于是智能算法实验室开始研究如何利用启发式搜索解决抠图问题。

实验室首先将抠图问题建模成待求解的优化问题，使用PSO算法搜索最优像素对[4]，相比于global抠图中的随机策略拥有更高的精度。之后实验室设计了一种基于DE算法的最优像素对搜索方法，根据图像空间的特性，在DE算法中加入协同进化策略，增加搜索速度；此外又使用一种保持种群多样性的策略，防止搜索算法过早收敛[5]。与此同时，PSO算法的收敛速度也能被控制，实验室在PSO算法的基础上尝试使用收敛速度控制器[6]，通过维护粒子群的多样性防止过早收敛，并且还能够根据实际情况增加收敛速度，从而高效且精确地解决最优像素对搜索问题。

在此之后，实验室开始考虑像素对评估模型，文献[7]将像素对评估问题视为多目标优化问题，首先使用多目标优化算法求得非劣前沿，然后通过模糊多准则评估选出最适合目标图像的抠图方案，该方法与之前单目标优化的方法相比拥有更高的精度。

相比于传统的基于采样的抠图技术，基于搜索的抠图技术拥有更大的搜索范围，能够精确地处理最优像素对距离未知像素较远的特殊情况。然而，在对高清图像进行抠图时，搜索空间更加庞大，前面所提的启发式搜索算法也很难在如此高的维度中精确地找到最优解，因此，如何利用启发式抠图算法解决高清图像的抠图问题是实验室接下来的重点研究方向。

抠图算法从一块绿幕一步一步地走到今天，曾经困扰着人们的孔洞、毛发、透明袋等特征已经不再是无法解决的难题，研究人员针对这些复杂特征不断地提出精确度更高、效率更高的方法，挑战着越来越复杂的图像。

与此同时，随着抠图技术在越来越多的领域得到应用，抠图技术扮演的角色渐渐地开始改变。最初的抠图技术只是作为图像合成的逆操作，在影视制作以及日常生活的图像编辑中充当图像合成的一个工具。

实际上，抠图技术的本质是精确提取前景的技术，本身就能针对感兴趣的视觉对象进行提取与聚焦，因此，抠图技术的应用不一定要依赖于图像合成。文献[8]针对血管分割问题，提出一种三分图自动生成的方法，然后使用抠图技术辅助血管分割。文献[9]针对红外行人分类问题，将抠图技术作为一种预处理的方式，首先将图片中的房屋、树木以及行人等对象提取出来，再使用抠图得到的数据进行训练，从而避免背景中的噪声干扰。

抠图技术的应用远不止于此，在计算机视觉任务中抠图技术能够提取特定的视觉元素，过滤背景信息，如同一双拥有感知图像信息能力的眼睛。因此，抠图技术有着不可忽略的应用价值，精确抠图以及抠图应用都有着重大研究意义。

针对抠图问题，智能算法实验室团队近几年重点关注抠图算法的设计及其在工程领域的应用研究，相关技术研究成果发表在国际顶级期刊IEEE Transactions on Image Processing与IEEE Transactions on Fuzzy Systems上，此外，相关应用研究成果还发表在Applied Soft Computing上，取得的系列研究成果得到图像领域研究人员的共同关注和认可。

目前，实验室还在高清抠图问题上开展了进一步的研究，针对高清图像前景遮罩提取过程中存在的问题维度过高难以直接求解、前景遮罩提取精度低等问题, 提出了基于分组协同的群体竞争优化算法[10]，提高了高清图像前景遮罩的提取精度。今后实验室会继续对高清抠图问题展开更深入的研究。

参考文献

[1] Porter T, Duff T. Compositing digital images[C]//Proceedings of the 11th annual conference on Computer graphics and interactive techniques. 1984: 253-259.

[2] Cho D, Tai Y W, Kweon I. Natural image matting using deep convolutional neural networks[C]//European Conference on Computer Vision. Springer, Cham, 2016: 626-643.

[3] Xu N, Price B, Cohen S, et al. Deep image matting[C]//Proceedings of the IEEE

[4] Lv L, Huang H, Cai Z, et al. Using particle swarm large-scale optimization to improve sampling-based image matting[C]//Proceedings of the Companion Publication of the 2015 Annual Conference on Genetic and Evolutionary Computation. 2015: 957-961.

[5] Cai Z, Lv L, Huang H, et al. Improving sampling-based image matting with cooperative coevolution differential evolution algorithm. Soft Computing, 2017, 21(15): 4417-4430.

[6] Liang Y, Huang H, Cai Z, et al. Particle Swarm Optimization with Convergence Speed Controller for Sampling-Based Image Matting[C]//International Conference on Intelligent Computing. Springer, Cham, 2018: 656-668.

[7] Liang Y, Huang H, Cai Z, and Hao Z. Multiobjective Evolutionary Optimization Based on Fuzzy Multicriteria Evaluation and Decomposition for Image Matting. IEEE Transactions on Fuzzy Systems, 2019, 27(5): 1100-1111.

[8] Fan Z, Lu J, Wei C, Huang H, et al. A hierarchical image matting model for blood vessel segmentation in fundus images. IEEE Transactions on Image Processing, 2019, 28(5): 2367-2377.

[9] Liang Y, Huang H, Cai Z, et al. Deep infrared pedestrian classification based on automatic image matting[J]. Applied Soft Computing, 2019, 77: 484-496.

[10] 冯夫健,黄翰,吴秋霞,凌霄,梁椅辉,蔡昭权.基于群体协同优化的高清图像前景遮罩提取算法.中国科学:信息科学, 2020, 50(3): 424-437.

登录用户可以查看和发表评论，请前往登录或注册。