在视觉设计领域中,大量低技术含量的设计需求或者高度重合的设计任务会耗费大量时间成本和人力成本,例如针对不同机型和网站宣传展位的多尺寸拓展、同一种风格或者主题的海报设计等。这些简单而机械的设计工作使设计师们难以进一步提升自身水平,无法获得更好的发展。
此外,随着互联网的高速发展,互联网营销成为了新兴的营销手段。其中,网站和手机应用首页的宣传展位是广告商们投放广告的重要选择之一。不同的宣传展位通常需要不同尺寸的宣传设计稿,这意味着设计师需要在短时间内针对相同的内容绘制多种尺寸的设计稿。因此,引入计算机和人工智能技术辅助自动生成设计图的自动广告布局设计技术研究应运而生。
自动广告布局设计技术自动生成设计布局图的过程主要分为以下四步:(1)对参与组合的组件类别进行划分,例如预先将平面设计图划分为背景、蒙版、区域修饰、主体、文字等组件;(2)通过人工标注的方式对上述类别元素进行标注,即设计专家提炼设计手法、设计风格以及该元素在当前布局结构中的相对位置;(3)将这些元素以训练数据的形式输入神经网络以帮助计算机“理解”人工设计的深层知识;(4)最终输出合理的布局结构组合设计图。其中,第(3)步的核心是基于深度学习的布局生成算法模型。该类模型可以使计算机感知不同类别组件的潜在位置向量变化趋势,最终帮助计算机得出潜在布局设计图。
在针对自动广告布局设计技术的研究中,文献[1]引入了基于显著性识别的图像裁剪,通过把设计学中的审美原则与可计算的图像特征相结合,创造性地提出了一个可计算的自动排版框架原型,如图1所示。该原型通过对一系列关键问题的优化(例如,嵌入在照片中的文字视觉权重、视觉空间的配重、心理学中的色彩和谐因子、信息在视觉认知和语义理解上的重要性等),把视觉呈现、文字语义、设计原则、认知理解等领域专家的先验知识自然地集成到同一个多媒体计算框架之内,并且开创了“视觉文本版面自动设计”这一新的研究方向。
图1 自动排版框架原型图[1]
近年来,越来越多学者开始使用基于深度学习的方法完成自动广告布局设计任务。基于深度学习的方法通过从训练样本中提取数据特征生成不同的目标布局。与传统方法相比,基于深度学习的方法具有生成速度快、样式多、无需规则模板等优点。接下来,小编将为大家简要介绍几种使用基于深度学习的方法来解决布局生成问题的研究工作。
(1)基于编码器-解码器结构的布局生成方法
LayoutGAN [2]是由Li等人在2019年提出的一个用于自动布局设计任务的深度模型。该模型能够在设计中直接合成一组图形组件,可用于文档布局设计以及场景布局设计。模型的整体结构如图2所示。其中,在生成器部分,基于随机种子生成的边界框和类别标签信息被输入自编码模型,中间将经过一层用于感知不同类别组件之间关系的自注意层,最终模型将输出学习到的布局表征结果。此外,鉴别器模型将对生成器生成的结果进行线性渲染,通过几个公式把生成结果的参数转化为线框图,最后让卷积神经网络判别器分辨线框图真伪。
图2 LayoutGAN模型结构图[2]
论文使用LayoutGAN模型生成文档布局设计的方案,并在同一个设计需求上与其他自动布局设计方法进行了对比,对比结果如图3所示。可以看到,基于DCGAN的布局生成方法所生成的布局仍有大量不对齐的现象,而LayoutGAN生成的布局中线框更加美观。从与基于人工制定的传统规则约束方法对比可看出,LayoutGAN生成的结果组件间更加对齐。这说明,相较于传统方法,基于深度学习的方法能够更好地拟合真实分布结果。
图3 LayoutGAN模型与其它方法对比结果图[2]
(2)基于用户指定约束条件的布局生成方法
Neural Design Network (NDN) 模型[3]在一般布局生成任务的基础上,将用户定义的额外约束纳入考虑,使得模型能趋向用户需求生成结果。在NDN的架构中,主要有关系预测、布局生成和布局优化三个组成模块。模型整体结构如图4所示。
图4 Neural Design Network模型结构图[3]
其中,关系预测模块预测与用户指定关系图形具有完全关系的图表。关系图表征了元素之间的相对位置关系,可携带用户定义的约束信息。布局生成模块使用基于图卷积网络(Graph Convolutional Networks, GCNs)的变分自编码器从预测的图表生成布局,其中关系的标签是启发式的,即通过将前一个模块预测出的关系图作为输入,迭代地预测出每个元素的边界。而布局调优模块将通过一个图卷积神经网络对预测的布局进行精细调整。该网络在原始的正确边界框中添加随机扰动的边界框集合,通过最小化输出边界框和原始边界框的距离来实现优化。图5展示了NDN与其他布局设计方法的布局生成对比效果。如图5所示,引入用户对组件约束的条件信息能使基于深度学习的方法生成更规范的结果。
图5 NDN模型与其它方法对比结果图[3]
(3)基于Transformer注意力机制的布局生成方法
LayoutGAN++模型[4]引入了近年的前沿热点多头注意力机制,建立在基于 Transformer架构的生成式布局模型上,使用现成的布局生成模型在潜在空间进行优化,并将布局生成公式转化为受约束的优化问题。模型的整体结构如图6所示。一方面,生成器模型先从高斯分布中对边界框信息进行采样,然后根据采样结果将布局的元素标签送入一个编码器进行编码,并将所得到的编码送入到Transformer模块,最后将得到的结果向量经过编码器输出生成布局设计结果。另一方面,鉴别器模型先将生成器生成的结果和标签一同输入到编码器进行编码,然后将编码的结果输入Transformer模块中,最终输出与真实性相关的判断结果。除此之外,模型提出增加额外的正则项方法,用额外的编码器规范化鉴别器的输出结果,从而增强位置的感知能力。与LayoutGAN模型不同,LayoutGAN++模型将生成结果和真实标签结果对比,并借助标准Transformer结构下的残差连接和多头注意力机制增强模型的学习能力。
图6 LayoutGAN++模型结构图[4]
LayoutGAN++模型分别在Rico、PubLayNet以及Magazine数据集上进行了实验,LayoutGAN++与其它方法生成的布局对比效果图如图7所示。通过与近年来的同类方法对比不难发现,引入注意力模块能使得模型有效感知组件潜在位置向量的变化趋势,从而生成更为合理美观的布局结果。
图7 LayoutGAN++模型与其它方法对比结果图[4]
目前,使用人工智能技术辅助布局自动设计的技术已经投入实际应用,比方说2021年阿里巴巴集团的“鹿班”系统在“双十一”活动当天总共提供了1.7亿张横幅广告设计图,而京东内部也在孵化玲珑和莎士比亚系统,以期更加智能地设计文案和横幅广告。
图8 阿里巴巴集团的“鹿班”系统
然而,在面对复杂感性、难以量化的设计工作时,人工智能往往表现不佳。这是由于人们的审美需求具有主观、模糊、复杂、感性等特征,难以清晰地对其中的结构特征和计算方式进行知识表示,这是目前机器智能的短板。未来,或许研究者们可以从扩展常规设计风格、语义相关的颜色及素材挖掘、自动解析数据、构建自评估学习闭环等方面继续对自动布局设计生成进行研究,进一步提升算法的设计能力和适用性,帮助设计师减少高重复性的工作,进一步提高设计效率,降低设计的经济成本。
参考文献:
[1] X. Yang, T. Mei, Y. Xu, Y. Rui and S. Li, "Automatic generation of visual-textual presentation layout," ACM Transactions on Multimedia Computing, Communications (TOMM), vol. 12, no. 2, pp. 1-22, 2016.
[2] J. Li, J. Yang, A. Hertzmann, J. Zhang and T. Xu, " Layoutgan: Generating graphic layouts with wireframe discriminators," arXiv preprint arXiv:1901.06767, 2019.
[3] H.Y. Lee, L. Jiang, I. Essa, P. B. Le, H. Gong, M. Yang and W. Yang, " Neural design network: Graphic layout generation with constraints," in European Conference on Computer Vision, 2020, pp. 491-506.
[4] K. Kikuchi, E. Simo-Serra, M. Otani, K. Yamaguchi, " Constrained graphic layout generation via latent optimization," in Proceedings of the 29th ACM International Conference on Multimedia, 2021, pp. 88-96.
总编:黄翰
责任编辑:袁中锦
文字:刘子钊
图片:刘子钊
校稿:何莉怡
时间:2022年8月24日