https://mp.weixin.qq.com/s/b3ffGKTgLE0H1O55QFNzxg
最近一年,随着 ChatGPT 的发布,大型语言模型(LLM)获得了前所未有的关注,开源 LLM 不断涌现,例如 LLamA 系列、MPT 系列,以及国内的 Baichuan 系列、ChatGLM 系列等。在这些模型的基础上,研究者还进一步开发了 Vicuna 系列模型等,这些模型在各种任务上的性能不断提升。同时,越来越多的研究者开始将 LLM 引入到多模态任务中,产生了一系列大型多模态模型(Large Multimodal Models, LMM),其中以视觉-语言模型最为热门。在本文中,我们将重点介绍最近一年内流行的视觉-语言模型(Vision-Language Model,VLM)。
在之前的文章中我们已经陆续介绍了 LMM 涉及的任务、数据集,以及常见的 10 多种 LMM 的模型结构及其对应的训练数据和训练方式;此外,我们还具体介绍了几个 LMM 的论文,比如 MiniGPT-v2、LLaVA-1.5、CogVLM、mPLUG-Owl2 等;最后,我们还介绍了解决 LMM 幻觉的一些方案,比如 Woodpecker、LURE。