1
点赞
0
评论
0
转载
我要入驻

Token空间的缩放能力:视觉语言模型中视觉token的缩放行为分析

收录于合集: # 科研成果

学者网讯(编辑/刘秀)大语言模型的缩放定律已经得到了广泛验证:随着参数规模和训练数据的增加,模型性能呈现可预测的幂律增长。在token空间也有类似的规模定律现象。例如,通过扩展词表、使用n-gram或Engram等方式可以提升预训练模型的性能。那么在视觉语言模型中,视觉token的数量是否也存在类似的缩放行为?

广东工业大学自动化学院研究团队在JMLR上发表了一项研究,系统地建立了视觉token数量与视觉语言模型性能之间的数学框架,揭示了视觉token空间的缩放规律。

该研究表明,视觉token数量与模型性能遵循可预测的数学关系,类似于语言模型中参数和训练数据的缩放行为。这一发现为视觉语言模型的设计和优化提供思路。

目前,该论文已被接收,代码已开源。

研究背景:视觉token的权衡

视觉语言模型通常将图像编码为数十到数千个视觉token,然后与文本token拼接后输入Transformer进行处理。视觉token的数量面临一个经典的权衡:

  • token过少:无法捕捉足够的图像细节,导致信息丢失,影响任务性能
  • token过多:虽然能捕捉更丰富的视觉信息,但时间、空间复杂度会随着token数量快速增长

例如,CLIP ViT-L/14 从 224×224 的图像产生 256 个token,而高分辨率模型如 InternLM-XComposer2-4KHD 可以为 4K 图像生成多达 2377 个token,这带来了巨大的计算成本。

那么,视觉token数量与模型性能之间究竟存在怎样的数学关系?这就是本研究要回答的核心问题。

核心思路:用”距离”衡量模型判别能力

研究团队并没有直接测量模型在特定任务上的性能,而是提出了一个更通用的分析框架:通过测量模型在处理两个不同输入序列时隐藏状态的表示距离,来量化模型的判别能力。

为什么用”距离”作为代理指标?

这一方法基于自回归模型的一个基本性质:在确定性生成设置下(如贪婪解码),相同的输入会产生相同的输出。因此,可以通过观察模型对系统变化的输入的响应,来分析其判别能力。

直观地说: - 当两个分支序列之间的距离较小时,模型难以区分它们,导致预测模糊,性能降低 - 当距离较大时,模型可以可靠地区分输入,产生准确的响应,性能更好

输入模式的统一表示

为了系统性地简化分析,研究团队首先将视觉语言模型的输入模式统一表示为:

其中:

  • 视觉无关token:在所有输入变化中保持恒定的文本内容(如”请描述这张图片”)
  • 视觉相关token:包含与视觉内容直接相关的文本和视觉token

这种分解的考量是,文本内容可能含有视觉相关的指示,从而间接提供视觉信息。

具体样例

假设有两个问题: 1. “请描述这张图片” 2. “请描述这张图片中间白色的物品”

第一个问题没有含有任何目标图片的具体内容,属于纯粹的指令性文本;而第二个问题则明确指示了位置(“中间”)和颜色信息(“白色”)。这些额外的信息能帮助模型更好地理解图片内容,从而影响模型性能。

再举一个视觉问答的例子:

  • 问题A:“图片中有什么动物?”
  • 问题B:“图片左下角的那个动物是什么?”

问题B通过”左下角”这个位置指示,缩小了模型需要关注的视觉区域,优化了模型的搜索范围,可能提高回答的准确性。

这些文本中的视觉相关指示,实际上起到了伪扩展视觉序列长度的作用,相当于间接增加了与视觉内容相关的信息。

分支距离的定义

考虑两个输入序列,它们共享相同的前缀 token,但在视觉相关部分有所不同:

 

研究团队使用隐藏状态差累积和 Frobenius 范数表示分支的距离:

具体样例

假设有一个视觉问答场景,共享前缀是“图片中有什么动物?”

几何解释

理论分析:两种缩放机制

基于上述定义,研究团队对距离的期望进行了深入的理论分析,揭示了视觉token缩放的两种机制。

期望距离的上界

 

两种缩放机制

这一期望边界呈现两种不同的缩放机制,反映了模型在处理不同数量视觉token时的行为变化:

与性能的关联

基于上述分析,模型性能与该期望之间存在关联:

缩放指数的具体形式

关键参数的影响

 

实验验证:可控视觉token模型架构

为了验证理论预测,研究团队设计了一个特定的视觉语言模型架构,该架构可以灵活调整视觉token数量。

模型架构设计

遵循LLAVA格式的视觉语言模型架构设计,该模型基于视觉编码器作为视觉token生成器和大语言模型作为基座。为了验证缩放关系,设计了满足以下三个关键架构需求的模型:

 

 

图:为验证理论发现而设计的视觉语言模型架构,该架构可以调整视觉token数量以进行系统性实验

训练策略

  1. 大语言模型保持冻结
  2. 视觉编码器、融合模块和投影层在微调阶段更新 - 这种方法隔离了视觉token缩放的影响

视觉token数量控制: 通过 Learnable Queries(特殊的占位,用于学习选择视觉token),可以灵活调整视觉token的数量。

实验设置

研究团队采用了两阶段训练方法以隔离视觉token缩放的影响:

 

使用标准化评估工具(VLMEvalKit),测试的基准涵盖了多个任务领域:多模态理解(MME、HallusionBench、POPE)、图像描述(COCO VAL的BLEU-1/4、ROUGE-L、CIDEr指标)以及视觉问答(OCRBench、AI2D、RealWorldQA、MMStar、SEEDBench、SEEDBench2、SEEDBench2 Plus、ScienceQA、OCRVQA、ChartQA、TextVQA)。

实验结果:缩放定律的验证

缩放分析

研究团队对两种不同输入配置的模型进行了缩放行为分析:一种是不包含用户提问作为输入的进一步微调模型,另一种是包含用户提问作为输入的模型。

 

 

 

 

主要观察

  1. 缩放规律的普适性:缩放规律在两种输入配置下都成立——无论是否将用户提问作为输入的一部分,视觉token数量与性能的关系都遵循类似的模式。
  2. 任务敏感性差异:不同任务对视觉token数量的敏感度不同:
  • 部分任务(如OCRBench、ChartQA、TextVQA)需要更精细的视觉信息,减少token会导致较为明显的性能下降。一些任务(如ScienceQA TEST、MMStar、AI2D)对token数量变化相对不敏感。

用户提问对缩放行为的影响

研究团队还分析了用户提问对模型性能的影响。基于输入模式的统一表示,用户提问的影响可以从两个互补的角度分析:

  1. 帮助模型理解用户意图并聚焦于相关图像区域(如”图片左角有什么?“)
  2. 用户的提问可以视为视觉相关token,相当于伪扩展视觉序列长度

实验结果表明,当用户提问包含有意义的视觉相关信息时,模型性能通常会得到提升;而当问题缺乏视觉指向性时(如COCO VAL的”请描述这张图片”),这种提升并不明显。

 

图:包含用户提问的模型(Vision Question Queries)与不包含用户提问的进一步微调模型(Vision Queries (ft))的性能差异对比。绿色表示包含用户提问的模型性能更优,橙色表示不包含用户提问的模型性能更优。

总结

本研究建立了视觉token数量与视觉语言模型性能之间的缩放关系理论分析,并在多个基准上进行了验证。研究的主要贡献包括:

该论文由广东工业大学自动化学院周郭许教授团队牵头,联合日本理化学研究所(RIKEN)完成,第一作者为博士生李腾辉。(全文完)

学者网机构号是学者网提供的学术"公众号"平台,为学者团队、学术机构、企业等提供官方媒体账号服务,支持发布动态、活动、通知与招生招聘信息等内容,支持多人协作维护,助力机构链接学界资源、扩大学术影响力。

立足湾区,放眼全国,我们希望能以专业的视角观照社会科技发展前沿,以切中肯綮的见解为湾区科技创新做出自己的贡献,为湾区科技工作者、湾区科创企业、湾区科技发展趋势,注入磅礴不息的生机与活力。
返回顶部