(转)最全 LMM 评估指标汇总:20+模型、7个维度
来源: 徐圣兵/
广东工业大学
1074
0
0
2023-11-14

https://mp.weixin.qq.com/s/b3ffGKTgLE0H1O55QFNzxg

最近一年,随着 ChatGPT 的发布,大型语言模型(LLM)获得了前所未有的关注,开源 LLM 不断涌现,例如 LLamA 系列、MPT 系列,以及国内的 Baichuan 系列、ChatGLM 系列等。在这些模型的基础上,研究者还进一步开发了 Vicuna 系列模型等,这些模型在各种任务上的性能不断提升。同时,越来越多的研究者开始将 LLM 引入到多模态任务中,产生了一系列大型多模态模型(Large Multimodal Models, LMM),其中以视觉-语言模型最为热门。在本文中,我们将重点介绍最近一年内流行的视觉-语言模型(Vision-Language Model,VLM)。

在之前的文章中我们已经陆续介绍了 LMM 涉及的任务、数据集,以及常见的 10 多种 LMM 的模型结构及其对应的训练数据和训练方式;此外,我们还具体介绍了几个 LMM 的论文,比如 MiniGPT-v2、LLaVA-1.5、CogVLM、mPLUG-Owl2 等;最后,我们还介绍了解决 LMM 幻觉的一些方案,比如 Woodpecker、LURE。

然而,我们只在部分文章中介绍了相关模型的评估结果,却没有将其整合起来一起比较,这是因为不同模型采用的训练模式、训练数据,以及采用的评估基准、评估方式都各不相同,如果去人工评估所有模型的代价非常大。为了解决这一问题,本文中我们尝试将各个指标汇总起来比较(所有指标均来自相关论文),以便大家更好地了解不同模型的性能,并根据场景挑选最合适的模型。

登录用户可以查看和发表评论, 请前往  登录 或  注册
SCHOLAT.com 学者网
免责声明 | 关于我们 | 联系我们
联系我们: