图像语义分割(Semantic Segmentation)是计算机视觉中一个非常重要的子领域,其目的是将图像中每个像素与特定的类标签关联起来,从图像中推理出高层语义,帮助计算机进行场景理解。图像语义分割问题是计算机视觉的经典任务之一,具有广泛的应用场景,也是实例分割、场景分割等任务的基础。
问题与建模
图像语义分割要解决的关键问题是如何对图像进行硬分割,即将图像中每一个像素点和相关的类别关联起来,根据图像的语义识别出各个类别对象在图像中的所有像素点集合,对特征图在每个原图像素位置上不同类别的响应程度进行类别ID分配。类别通常是人为定义的,根据场景语义来确定具体标签,如草地、树木、建筑物、单车、栅栏等,如图1所示。
图1 图像语义分割的类别示例
方法与应用
图像语义分割在自动驾驶、医学影像分析、视频解析等多个任务上被广泛应用。
【应用1:自动驾驶】
在自动驾驶场景中,汽车通过摄像头实时捕捉周围场景,利用图像语义分割技术判断每个像素的预测类别,对周围的其他汽车、行人等进行避让,或者识别车道线以判断行驶方向。Cityscapes数据集是目前主流的自动驾驶场景数据集。图2是Cityscapes数据集的原图及标注图,从图中可以看出该类场景存在小目标难以识别、大目标易被遮挡等难点。
图2 Cityscapes数据集示例
道路场景下的图像语义分割通常关注如何提高目标对象的内部一致性,并且在保证主体部分被正确归类的同时,注重目标对象边缘的分割细节。对此,现有方法通常利用多尺度特征融合或构建全局上下文信息模块来提高分割精度。在多尺度特征融合方面,DeepLabv3+方法[1]引入了带有空洞卷积的空间金字塔池化模块,通过多尺度信息来更好地理解大目标与小目标的差异。在构建全局上下文信息模块方面,EncNet结构[2]中加入了上下文编码模块,通过引入全局上下文信息来捕获场景的上下文语义以及突出类别相关的特征图,例如不必计算室内场景中出现车辆的概率。此外,Li[3]等人认为性能优秀的图像语义分割方法需要明确建模目标对象的主体和边缘,两者分别对应图像的高频和低频信息,并通过解耦监督对主体和边缘分别进行显式采样。于是,他们提出了DecoupleSegNets模型,该模型在Cityscapes数据集上取得了当前最高的像素准确率。
【应用2:医学影像分析】
图像语义分割技术也被广泛应用于医学场景中,比方说对人体不同器官部位进行图像语义分割可以辅助医师更好地判断医学影像中可能出现的病灶。图3展示了一个从胸腔X射线影像中分割出心脏、肺和锁骨的例子,分别对应图中红色、绿色和蓝色部分。医学图像分割任务存在对比度低、数据量少、分割精度要求高等难点。目前,U-Net模型[4]是该任务中最基础的通用方法,在医学图像分割中扮演着重要角色。该模型基于编码器-解码器结构,应用长距离跳跃连接结合来自底层的细节,有效地弥补了因下采样操作导致的空间信息缺失,能够帮助神经网络进行更加精确的定位。
图3 医学图像分割示例
针对医学影像分割任务的特性,目前医学影像的图像语义分割方法大多是基于U-Net模型来进行改进的。例如nnU-Net方法[5]是一种自适应医学图像分割框架,能够在无需人工协助的情况下自动适应任何给定的医疗分割数据集,首次解决了不同类型的医学图像分割数据集之间的适应性问题,建立了U-Net在医学分割上的Baseline。而DoubleU-Net[6]将两个U-Net进行融合,提出了一种新颖的卷积神经网络架构。DoubleU-Net组合了两个相互堆叠的U-Net架构,并将抽取后的特征转移到叠加的U-Net中,用于捕获更多的语义特征信息。该方法在多个公开的分割基准上达到了目前最先进的性能。
【应用3:视频解析】
视频语义分割也是图像语义分割领域中极具挑战性的子任务之一。视频由多帧图像组成,因此很多视频语义分割模型都是基于一般的图像语义分割方法进行构建的。图4显示了两组相邻帧的视频图像。仅对视频进行逐帧图像语义分割将存在两个问题:一是逐帧处理没有考虑分割结果的时空一致性,这将在视觉上造成分割结果边缘的剧烈抖动;二是视频中相邻帧之间具有一定的相似性,用图像分割网络提取特征存在大量的计算冗余。因此,如何利用视频中帧与帧之间的时序信息来提高图像分割的精度,以及如何利用帧与帧之间的相似性来减少模型计算量以提高视频流吞吐量,是视频语义分割的两个主要研究方向。在利用时序信息提高分割精度方面,Nilsson[7]等人提出了基于门控循环流传播的视频语义分割模型。该模型将卷积架构和时空转换器的递归层相结合,通过光流在时间上的传播标记信息,并根据其局部估计的不确定性进行自适应门控。在降低视频冗余计算量方面,Li[8]等人提出了低延迟视频语义分割框架,设计了能够自适应融合特征的特征传播模块,用于降低每帧计算的成本,并通过自适应调度器动态地分配计算以提高分割精度。
图4 视频语义分割示例
图像语义分割是计算机视觉迈向视觉场景理解的关键一步。与抠图技术相比,图像语义分割技术仅需对图像中的像素点进行分类,而抠图技术还需要通过估计前景的不透明度以实现图像前景区域的精确提取,难度倍增。智能算法研究中心迄今为止已经研发了不少抠图算法,多次成功应用于交通、教育、医疗等领域。
图5 智能算法研究中心启发式优化抠图算法的应用
随着深度学习的兴起,图像语义分割技术取得了飞速的进展,但目前仍存在很多需要克服的问题,如实时性分割、小物体的边缘分割等。未来,工业界和学术界需要共同努力以推动该领域技术的进一步发展。
参考文献
[1] L. C. Chen, Y. Zhu, G. Papandreou, F. Schroff, H. Adam, "Encoder-decoder with atrous separable convolution for semantic image segmentation," in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 801-818.
[2] H. Zhang, K. Dana, J. Shi, Z. Zhang, X. Wang, A. Tyagi, A. Agrawal, "Context Encoding for Semantic Segmentation," in Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, 2018, pp. 7151-7160.
[3] X. Li, X. Li, L. Zhang, G. Cheng, J. Shi, Z. Lin, S. Tan, Y. Tong, " Improving semantic segmentation via decoupled body and edge supervision," in European Conference on Computer Vision, 2020, pp. 435-452.
[4] O. Ronneberger, P. Fischer, T. Brox, "U-net: Convolutional networks for biomedical image segmentation," in International Conference on Medical image computing and computer-assisted intervention, 2015, pp. 234-241.
[5] F. Isensee, J. Petersen, S. A. A. Kohl, P. F. J¨ager, K. H. Maier-Hein, "nnU-Net: Breaking the spell on successful medical image segmentation," arXiv preprint arXiv:1904.08128, 2019.
[6] D. Jha, M. A. Riegler, D. Johansen, P. Halvorsen; H. D. Johansen, "DoubleU-Net: A deep convolutional neural network for medical image segmentation," in IEEE 33rd International symposium on computer-based medical systems (CBMS), 2020, pp. 558-564.
[7] D. Nilsson, C. Sminchisescu, "Semantic video segmentation by gated recurrent flow propagation," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2018, pp. 6819-6828.
[8] Y. Li, J. Shi, D. Lin, "Low-latency video semantic segmentation," in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 5997-6005.
[9] Y. Liang, H. Huang, Z. Cai, et al, “Deep infrared pedestrian classification based on automatic image matting,” Applied Soft Computing, vol. 77, pp. 484-496, 2019.
[10] 基于超像素快速分割的证件照抠图应用软件V1.0(2021SR0155716)开发人员:黄翰、孙梦托、刘泽洋
[11] 基于图像综合特征的答题卡填涂信息自动识别方法(201410338618.9)授权公告号:CN104239850B 发明人:黄翰、刘志方、梁椅辉
[12] 基于二值图像连通域统计的答题卡自动评分方法(201310473334.6)授权公告号:CN103559490B 发明人:黄翰、梁椅辉(已转让所有权)
总编:黄翰
责任编辑:袁中锦
文字:刘沛贤
图片:刘沛贤
校稿:何莉怡
时间:2022年9月19日