【原文:刘蓓 傅建龙 让机器学会触景生情吟诗作赋 中国计算机学会通讯-第15卷第3期-2019年3月】
2019年3月,微软亚洲研究院刘蓓副研究员和傅建龙主管研究员在“中国计算机学会通讯”的第15卷第3期发表了一篇名为《让机器学会触景生情吟诗作赋》的文章。这篇文章讲述了他们对于让机器学会看图写诗的挑战、过程以及评价的研究。
让机器学会看图写诗的挑战
刘蓓和傅建龙认为,从一幅图像生成诗歌主要面临三大挑战:
(1) 从图像生成诗歌是一个跨模态的问题,若从图中提炼关键字然后根据主题生成诗歌,或会丢失图片中的关键信息和重要线索。
(2) 从图像生成诗歌是一项更主观的工作,这意味着同一幅图像可以对应不同方面的多首诗歌,而图像标题技术 / 图像生成短文更多地是描述图像中的事实,并生成相似的语句,如图1。
(3) 诗句的形式和风格与叙述语句不同,例如长度,用词偏好等。
图 1 图片的描述性语句和诗歌的对比(本图选自原文)
机器看图写诗的过程
刘蓓和傅建龙研究员收集了两个人类注解的诗歌数据集,在一个系统中通过集成检索和生成技术来进行诗歌的创作。为了更好地研究诗歌生成中图像的诗歌线索,他们首先在包含数千对图像 - 诗歌的多模态诗歌数据集(即“多模态诗集”)上,训练了使用图像卷积神经网络 (CNN) 特征和诗歌句子的 Skip-Thought 向量的深度耦合视觉诗意嵌入模型,使得同一对的图片和诗歌在嵌入空间中比较接近,不同对的距离较远。然后他们使用这一嵌入模型,从一个更大的图像单模态诗歌语料库(即“单 模态诗集”)中检索更多相关的诗歌。这些被检索的诗歌的图片,与多模态诗集一同构成一个扩大的图像 - 诗歌对数据集(即“多模态诗集 (EX)”)。
他们还设计了多模态判别器和诗歌风格判别器两个判别器使得从图像激发的诗歌能至少满足两个标准 :(1) 与图像相关 ;(2) 在合适长度、诗歌语言风格和诗句一致性方面具有诗意感。多模态判别网络指导诗歌生成器生成与图片正相关的诗歌,而诗歌风格判别器可以指引诗歌生成器生成更符合人类写的诗歌风格。
图2 看图写诗的过程(本图选自原文)
撰稿:曾威
审稿:丁美荣