学者网讯（编辑/刘秀）大语言模型的缩放定律已经得到了广泛验证：随着参数规模和训练数据的增加，模型性能呈现可预测的幂律增长。在token空间也有类似的规模定律现象。例如，通过扩展词表、使用n-gram或Engram等方式可以提升预训练模型的性能。那么在视觉语言模型中，视觉token的数量是否也存在类似的缩放行为？

广东工业大学自动化学院研究团队在JMLR上发表了一项研究，系统地建立了视觉token数量与视觉语言模型性能之间的数学框架，揭示了视觉token空间的缩放规律。

该研究表明，视觉token数量与模型性能遵循可预测的数学关系，类似于语言模型中参数和训练数据的缩放行为。这一发现为视觉语言模型的设计和优化提供思路。

目前，该论文已被接收，代码已开源。

论文地址：https://jmlr.org/papers/v26/24-2243.html
代码链接：https://github.com/tenghuilee/ScalingCapFusedVisionLM.git
模型权重：https://modelscope.cn/models/LiTenghui/scalingcapabilitytokenspace

研究背景：视觉token的权衡

视觉语言模型通常将图像编码为数十到数千个视觉token，然后与文本token拼接后输入Transformer进行处理。视觉token的数量面临一个经典的权衡：

token过少：无法捕捉足够的图像细节，导致信息丢失，影响任务性能
token过多：虽然能捕捉更丰富的视觉信息，但时间、空间复杂度会随着token数量快速增长

例如，CLIP ViT-L/14 从 224×224 的图像产生 256 个token，而高分辨率模型如 InternLM-XComposer2-4KHD 可以为 4K 图像生成多达 2377 个token，这带来了巨大的计算成本。

那么，视觉token数量与模型性能之间究竟存在怎样的数学关系？这就是本研究要回答的核心问题。

核心思路：用”距离”衡量模型判别能力

研究团队并没有直接测量模型在特定任务上的性能，而是提出了一个更通用的分析框架：通过测量模型在处理两个不同输入序列时隐藏状态的表示距离，来量化模型的判别能力。

为什么用”距离”作为代理指标？

这一方法基于自回归模型的一个基本性质：在确定性生成设置下（如贪婪解码），相同的输入会产生相同的输出。因此，可以通过观察模型对系统变化的输入的响应，来分析其判别能力。

直观地说： - 当两个分支序列之间的距离较小时，模型难以区分它们，导致预测模糊，性能降低 - 当距离较大时，模型可以可靠地区分输入，产生准确的响应，性能更好

输入模式的统一表示

为了系统性地简化分析，研究团队首先将视觉语言模型的输入模式统一表示为：

其中：

视觉无关token：在所有输入变化中保持恒定的文本内容（如”请描述这张图片”）
视觉相关token：包含与视觉内容直接相关的文本和视觉token

这种分解的考量是，文本内容可能含有视觉相关的指示，从而间接提供视觉信息。

具体样例：

假设有两个问题： 1. “请描述这张图片” 2. “请描述这张图片中间白色的物品”

第一个问题没有含有任何目标图片的具体内容，属于纯粹的指令性文本；而第二个问题则明确指示了位置（“中间”）和颜色信息（“白色”）。这些额外的信息能帮助模型更好地理解图片内容，从而影响模型性能。

再举一个视觉问答的例子：

问题A：“图片中有什么动物？”
问题B：“图片左下角的那个动物是什么？”

问题B通过”左下角”这个位置指示，缩小了模型需要关注的视觉区域，优化了模型的搜索范围，可能提高回答的准确性。

这些文本中的视觉相关指示，实际上起到了伪扩展视觉序列长度的作用，相当于间接增加了与视觉内容相关的信息。

分支距离的定义

考虑两个输入序列，它们共享相同的前缀 token，但在视觉相关部分有所不同：

研究团队使用隐藏状态差累积和 Frobenius 范数表示分支的距离：

具体样例：

假设有一个视觉问答场景，共享前缀是“图片中有什么动物？”

几何解释：

理论分析：两种缩放机制

基于上述定义，研究团队对距离的期望进行了深入的理论分析，揭示了视觉token缩放的两种机制。

期望距离的上界

两种缩放机制

这一期望边界呈现两种不同的缩放机制，反映了模型在处理不同数量视觉token时的行为变化：

与性能的关联

基于上述分析，模型性能与该期望之间存在关联：

缩放指数的具体形式

关键参数的影响

实验验证：可控视觉token模型架构

为了验证理论预测，研究团队设计了一个特定的视觉语言模型架构，该架构可以灵活调整视觉token数量。

模型架构设计

遵循LLAVA格式的视觉语言模型架构设计，该模型基于视觉编码器作为视觉token生成器和大语言模型作为基座。为了验证缩放关系，设计了满足以下三个关键架构需求的模型：

图：为验证理论发现而设计的视觉语言模型架构，该架构可以调整视觉token数量以进行系统性实验

训练策略：

大语言模型保持冻结
视觉编码器、融合模块和投影层在微调阶段更新 - 这种方法隔离了视觉token缩放的影响

视觉token数量控制：通过 Learnable Queries（特殊的占位，用于学习选择视觉token），可以灵活调整视觉token的数量。

实验设置

研究团队采用了两阶段训练方法以隔离视觉token缩放的影响：

使用标准化评估工具（VLMEvalKit），测试的基准涵盖了多个任务领域：多模态理解（MME、HallusionBench、POPE）、图像描述（COCO VAL的BLEU-1/4、ROUGE-L、CIDEr指标）以及视觉问答（OCRBench、AI2D、RealWorldQA、MMStar、SEEDBench、SEEDBench2、SEEDBench2 Plus、ScienceQA、OCRVQA、ChartQA、TextVQA）。