想象一下,你捕捉到了一个温馨的家庭时刻,但背景中却有一群路人不小心闯入了镜头,显得背景十分杂乱,主体不够突出。别担心,Image Matting来帮忙!它就像是一把魔法剪刀,能够巧妙地将这些不速之客从照片中“剪掉”,让你的家庭照与一个更干净的背景无缝融合。最终,你将得到一张完美的家庭照片,仿佛那些行人从未出现过。由于Image Matting技术的便捷性和灵活性,它已成为日常图像处理的核心技术。能有效去除如偶然闯入画面的行人等干扰元素,恢复照片的焦点与美感。接下来,让我们深入了解Image Matting技术。
图1 某品牌手机的AI消除效果
一、精确分离:Image Matting技术
图像抠图(Image Matting)是计算机视觉领域的一项关键技术,广泛应用于图像编辑、视频制作和电影后期等领域[1]。该技术通过估计前景的不透明度(alpha matte)将图像中的前景从背景中分离出来。我们可以将自然图像表示为前景和背景的组合,用公式表示为:
图2 Image Matting技术的示意图
随着影视特效、虚拟现实等应用的增多,对透明物体抠图技术的需求日益增长。传统的抠图方法[2,3]往往依赖于辅助信息,如trimap,它是一种静态图像抠图算法。但传统抠图算法在处理未知区域时存在局限性,尤其是在边界模糊的情况下,抠图效果不佳。近年来,研究人员提出了许多基于深度学习的方法[1,4,5],例如,传统的匹配方法包括基于抽样的方法,通过从样本集中选择前景颜色和背景颜[4,5]。尽管这些方法在一定程度上提高了抠图质量,但在处理透明物体时仍面临挑战,主要体现为在未知区域内准确区分前景与背景的问题。
为了克服现有方法的不足,智能算法研究中心与电子科技大学中山学院合作研发出了一个开源的透明物体抠图模型——TOM-PDFB(Transparent Object Matting using Predicted Definite Foreground and Background)[6]。TOM-PDFB通过预测确定的前景和背景信息来优化抠图结果。实验结果表明,该方法不仅在透明物体领域的表现上比现有所有的抠图模型都更优秀,还增强了模型对于复杂场景下透明物体边缘细节的捕捉能力。目前,关于TOM-PDFB的研究成果已在国际顶级期刊IEEE Transactions on Circuits and Systems for Video Technology(JCR一区,影响因子8.3)上发表,并开放了代码(https://github.com/fuqian95/TOM-PDFB)供研究者们使用和验证。
二、精细捕捉:使用预测的确定前景和背景的透明物体抠图
TOM-PDFB是一种创新的透明物体抠图方法,利用未知区域内的明确前景和背景信息来提高抠图质量。整体流程如图3所示。前景-背景置信度估计器(FBCE)通过预测未知区域中像素属于确定前景或背景的置信度,生成前景置信图(FCM)和背景置信图(BCM)。这些置信图为抠图过程提供了额外的先验信息,有助于提高抠图的准确性。随后,经过渐进细化网络FB-PRN的处理,一张清晰而精准的透明物体就被提取了出来。
图3 TOM-PDFB的整体流程
TOM-PDFB的具体框架结构如图4所示。下面我们将具体介绍该方法的核心思想和两个重要模块(FBCE和FB-PRN)。
图4 TOM-PDFB的整体框架。
1、核心思想:明确未知区域内的前景背景信息
研究团队发现,在透明物体抠图中,明确未知区域的前景和背景非常关键。图5比较了常用的抠图方法在原始trimap上获得的alpha matte和在未知区域中确定了前景和背景范围的trimap上获得的alpha matte。很显然,后者有更高的质量。这一发现表明,清晰界定前景和背景能显著提升透明物体抠图的质量,从而推动TOM-PDFB模型的研究。
图5 该示例展示了使用trimap和集成了未知区域的明确前景和背景的trimap的透明物体抠图的比较结果:(a) 输入图像;(b) trimap;(c) 未知区域的确定前景;(d) 未知区域的确定背景;(e) 使用(b)得到的结果;(f) 将(b)与(c)和(d)结合使用得到的结果;(g) ground-truth。
2、精准预测:前景-背景置信度估计器(FBCE)
前景-背景置信度估计器(FBCE)是TOM-PDFB的关键组件,用于识别或预测图像中未知区域的确定前景和背景。该模块首先分析图像和trimap,生成前景置信图(FCM)和背景置信图(BCM),如图6所示。
图6 FBCE预测出的前景置信图(FCM)和背景置信图(BCM)
FBCE采用编码器-解码器结构,其中编码器是基于预训练的卷积神经网络,而解码器则由多个卷积层和上采样层组成。损失函数用于优化预测的准确性,由两部分组成,
通过自适应惩罚因子和权重,FBCE能够调整预测结果以更真实地反映前景和背景的分布。这个模块使TOM-PDFB能够从trimap的未知区域中提取出更明确的前景和背景信息,为后续alpha matte的生成提供指导,尤其是在处理透明物体时,能更好地捕捉细节和边缘。
3、精细优化:前景-背景渐进细化网络(FB-PRN)
前景-背景渐进细化网络(FB-PRN)是TOM-PDFB的另一个关键模块,旨在利用FBCE生成的FCM和BCM来进一步优化抠图效果。FB-PRN通过在多个分辨率层次上迭代优化alpha matte,生成更精细的透明物体抠图结果。
FB-PRN由多个前景-背景渐进细化模块(FB-PRMs)组成,这些模块分别在解码器的不同输出分辨率层上工作,包括1/8、1/4和1/1输入分辨率的层。
FB-PRN的具体工作流程如下图所示:
图7 FB-PRN的伪代码以及部分解释
三、卓越性能:透明物体抠图的实验验证
为了验证TOM-PDFB方法在透明物体抠图任务中的有效性和优越性,本研究通过一系列对比实验对该方法进行了深入探究。实验使用了三个广泛应用于图像抠图技术评估的数据集:Composition-1k[1]、Distinction-646[7]和Transparent-460[8]。这些数据集涵盖了从合成图像到高分辨率的真实透明物体图像,确保了实验结果的全面性和可靠性。
在Composition-1k的定性实验中,对比六个当前最先进的图像抠图方法,如图8所示,只有TOM-PDFB的图像细节最接近ground-truth。
图8 TOM-PDFB与目前最先进的方法在Composition-1k数据集上的视觉比较结果。
在定量实验方面,首先,为了比较模型的泛化能力,使用Composition-1K训练得到的模型在Transparent-460上进行测试,表现结果如表1所示。值得注意的是,TOM-PDFB使Grad减少了16.7%以上,Conn减少了7.8%以上。这两项指标的减少,意味着TOM-PDFB能够预测出具有平滑表面变化和清晰边界的alpha图像。
表1 在Transparent-460测试数据集上图像抠图方法的泛化能力比较。所有方法都在Composition-1k数据集的训练集上进行训练。
表2展示了这些模型在Composition-1k上进行测试的结果。TOM-PDFB在所有四个指标上表现都优于所有涉及的图像提取方法。这证实它不仅适用于提取透明对象,也适用于提取一般对象。
表2 TOM-PDFB与10个先进的方法在Composition-1k测试集上的定量结果。
此外,本研究还涉及在Composition-1K数据集上部分透明对象的比较实验、在Distinction-646数据集上测试的比较实验、消融实验等。更多实验细节与数据结果,欢迎阅读完整论文。
综上所述,TOM-PDFB在透明物体抠图任务中表现出色。无论是处理合成图像还是高分辨率的真实透明物体图像,TOM-PDFB均能呈现出高质量的抠图效果。该方法利用trimap中未知区域的前景、背景置信度提升抠图质量。实验结果表明TOM-PDFB的性能超越了目前一些最先进的方法。然而,不准确的trimap可能会误导TOM-PDFB后续的生成。未来,智能算法研究中心将进一步探索,期望进一步提升TOM-PDFB的性能,并推动透明物体抠图技术的发展,使其在更多领域得到广泛应用。
参考文献
[1]Han Huang, Yihui Liang, Xiaowei Yang, et al. Pixel-level Discrete Multiobjective Sampling for Image Matting, IEEE Transactions on Image Processing.(2019) 27(8): 3739-3751.
[2]冯夫健, 黄翰, 吴秋霞, 等. 基于群体协同优化的高清图像前景遮罩提取算法[J]. 中国科学: 信息科学, 2020, 50(3): 424-437.
[3]Yihui Liang, Han Huang, Zhaoquan Cai, and Zhifeng Hao, Multiobjective evolutionary optimization based on fuzzy multi-criteria evaluation and decomposition for image matting, IEEE Transactions on Fuzzy Systems. (2019) 27(5): 1100-1111.
[4]Tang J, Aksoy Y, Oztireli C, et al. Learning-based sampling for natural image matting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 3055-3063.
[5]Lu H, Dai Y, Shen C, et al. Indices matter: Learning to index for deep image matting[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 3266-3275.
[6]Liang Y, Fu Q, Kun Z, et al. Enhancing transparent object matting using predicted definite foreground and background[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2024.
[7]Qiao Y, Liu Y, Yang X, et al. Attention-guided hierarchical structure aggregation for image matting[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 13676-13685.
[8]Cai H, Xue F, Xu L, et al. Transmatting: Enhancing transparent objects matting with transformers[C]//European conference on computer vision. Cham: Springer Nature Switzerland, 2022: 253-269.