ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

导读

你是否有过这样的体验：让一个强大的视觉-语言模型（VLM）数一数画面中有多少只鸡，它能在 10 只以内回答得又快又准，但当鸡的数量增加到 50 只以上时，它要么胡编乱造，要么直接报错？这种“插值优异、外推崩溃”的现象，正是当前 VLM 在系统泛化能力上的核心痛点。尤其是在视觉计数这一基础推理任务上，模型的表现往往令人失望——它们能流畅地描述图像内容，却无法将学到的数字概念泛化到未见过的数量上。来自 ETH Zurich 的 Xingzhou Pang、Yifan Hou、Junling Wang 和 Mrinmaya Sachan 四位研究者，在 ICML 2026 上发表的这篇论文，首次将视觉计数失败的根本原因精确定位到“符号映射”阶段。他们通过巧妙地将计数过程解构为三个认知阶段——视觉个体化、幅度意识和符号映射，并利用合成 Go 棋盘和线性探针等技术，系统地揭示了 VLM 在计数外推时“看到但说不出”的矛盾现象。这项工作的核心创新在于：它证明视觉骨干网络在外推域中仍保持鲁棒的线性可分离数量表示，模型也保留了对未知数量的幅度比较能力，但最终在将有效视觉幅度映射到符号标记的环节上彻底崩溃。这一发现被称为“断裂幅度假说”，并为未来 VLM 的设计提供了明确的方向——单纯的数据缩放不足以解决此瓶颈，需要引入强制统一表示的归纳先验。本文将带你深入这篇论文的每一个细节，从问题界定到方法论，从实验设计到结论解读，力求呈现一篇结构完整、忠实原文的中文精读。无论你是 VLM 研究者、AI 系统设计者，还是对认知科学交叉感兴趣的读者，相信都能从中获得启发。

论文基本信息

摘要

虽然大型视觉-语言模型（VLMs）在插值任务上表现出色，但在系统泛化方面却遭受灾难性失败，最显著的体现在视觉计数任务上。本文通过将视觉计数解构为三个认知阶段：视觉个体化、幅度意识和符号映射，来研究这一外推瓶颈。利用合成 Go 棋盘和线性探针，我们证明视觉骨干网络在外推域内保持鲁棒且线性可分离的数量表示，排除了感知失败的可能性。此外，模型保留了潜在的幅度意识，能够成功地对无法枚举的数量进行比较推理。我们将崩溃点精确定位在符号映射阶段，即模型无法将有效的视觉幅度投影到符号标记上。我们的发现支持“断裂幅度假说”：VLMs 未能获得统一的数字空间，而是学习到断开、模态特定的统计流形，这阻止了未见数量在跨模态上的接地。这一发现在最先进的基础模型上得到验证，结果表明弥合这一差距需要强制统一表示的归纳先验，单纯的数据缩放是不够的。

引言：论文要解决什么问题

视觉计数是系统泛化能力的典型测试床。一个简单的递归算法（n → n+1）就足以让人类在掌握基数原则后零样本地枚举任意数量。然而，神经网络模型本将计数视为模式匹配问题，当目标数量超出训练分布时性能灾难性下降。这引出了一个根本性的诊断问题：计数失败源于无法感知独立物体、无法理解数量，还是无法将数量映射到标签？

论文引言首先回顾了系统泛化的研究背景：Fodor & Pylyshyn（1988）、Marcus（2003）、Lake & Baroni（2018）以及 Hupkes 等人（2020）早就指出，系统泛化是生物智能与人工智能之间的核心鸿沟。一方面，VLMs（如 OpenAI 的 GPT-4V、Google 的 PaLM-E、Qwen-VL 系列）展示了令人印象深刻的视觉描述和推理能力；另一方面，Thrush 等人（2022）、Yuksekgonul 等人（2023）、Paiss 等人（2023）指出这些模型本质上是统计插值器，在外推时容易出错。计数泛化失败的具体观察包括 Wallace 等人（2019）、Bender & Koller（2020）、Press 等人（2022）、Anil 等人（2022）的工作，他们发现模型在物体数量超出训练范围时表现崩溃。作者指出，现有研究虽然观察到了失败现象，但未能精确定位瓶颈的根源——是感知层面（模型无法“看到”所有物体）、数值认知层面（模型无法理解“多少”），还是符号映射层面（模型拥有数量概念但无法将其与正确的标签关联）？本文的目标正是通过认知解构，系统性地回答这一诊断性问题。具体而言，论文将视觉计数解构为三个认知阶段（图1）：

视觉个体化（Visual Individuation）：模型能否从视觉场景中识别并分离出独立的物体实例。
幅度意识（Magnitude Awareness）：模型是否具备对数量的抽象感知，能否比较不同集合的大小。
符号映射（Symbolic Mapping）：模型能否将感知到的视觉幅度映射到正确的语言符号（如数字单词"49"、"50"等）。

图1：视觉计数的三阶段诊断框架。论文将计数过程拆为视觉个体化、幅度意识和符号映射，用于定位 VLM 计数外推失败的具体环节。来源：原论文。通过线性探针从内部表示中解码隐藏计数，作者发现了一个反直觉的现象：瓶颈既不在视觉识别，也不在抽象数值感知。视觉骨干在外推域中保持线性可分离的数量表示，模型甚至能成功比较远超出训练集的数量大小（例如准确判断一组 110 个黑子是否对应一个 110 字符的文本列表）。然而，在显式枚举任务中准确性骤降为零。崩溃点被精确定位在符号映射阶段。作者将这些发现总结为断裂幅度假说：当前的 VLM 架构未能学习到跨模态统一的数字空间，而是学习到断开、模态特定的统计流形。因此，语言模块可能拥有鲁棒的文本计数能力，视觉模块拥有鲁棒的视觉数量表示，但二者之间缺乏有效的跨模态接地。

方法：核心思路与技术路线

认知阶段的解构

论文的核心方法框架是将视觉计数分解为三个可单独检验的认知阶段。这并非简单的概念划分，而是通过精心设计的实验操作化每个阶段，使得作者能够独立测量每个阶段的能力是否完好。 视觉个体化被操作化为：模型内部表示是否在外推域中仍能线性区分不同数量的视觉特征。具体来说，如果从视觉骨干网络（如 ViT 或 Qwen3-VL 的视觉编码器）提取的特征向量，对于不同数量的 Go 棋盘（例如 50 个黑子 vs. 51 个黑子）能够被线性分类器完美分离，则说明视觉个体化能力保持完好。 幅度意识被操作化为：模型能否在无需显式枚举的情况下，对两个数量进行大小比较。例如，向模型同时展示一个包含 110 个黑子的视觉棋盘和一个包含 110 个字符的文本列表，要求模型判断“视觉集合中的物体数是否与文本列表中的字符数相同”或“哪个更大”。如果模型能够在无法准确说出“110”这个数字的情况下正确比较，则说明幅度意识能力保留。 符号映射被操作化为：给定正确的视觉数量表示，模型能否生成正确的数字字符串。这通过测量语言解码器输出的 token 序列与真实数字之间的差异来衡量。

为什么三阶段分解是关键

这篇论文的关键并不只是发现 VLM 不会数数，而是把“不会数数”进一步拆解成可诊断的机制问题。若模型失败于视觉个体化，说明它没有可靠地区分每一个物体；若失败于幅度意识，说明它即便感知到物体，也无法形成“多少”的抽象量感；若失败于符号映射，则说明模型内部已经存在数量信息，却无法把它翻译成正确的数字 token。这种拆解使论文避免了笼统地说“模型泛化差”。作者通过线性探针和比较任务证明，视觉骨干仍然编码了数量，模型也能比较数量大小，真正崩溃的是从视觉幅度到语言符号的映射。换句话说，模型不是完全看不见，也不是完全不懂大小，而是“知道多少，但说不出正确数字”。

合成 Go 棋盘实验室

为了控制变量并消除真实图像中物体识别本身的复杂性，作者使用合成 Go 棋盘作为视觉刺激。Go 棋盘具有几个理想特性：黑子和白子对比鲜明、数量易精确控制、无杂乱背景干扰。棋盘上的黑子数量 N 从 1 到 120 变化。这种设计使得模型只需在低层次的视觉感知上区分点状物体，而非应对真实世界中的遮挡、光照、形状差异等复杂因素。论文采用类似 VLM 预训练方式的解耦训练策略：

视觉计数训练 模型（包括视觉编码器和语言解码器）在包含 N=1 到 N=49 的 Go 棋盘-数字配对数据上训练，目标是根据棋盘图像输出正确的数字标记（如“49”）。训练覆盖所有 N∈[1,49] 的整数。
文本计数预训练 语言解码器单独在纯文本数字序列上进行预训练，能够熟练地从 1 数到 99。这意味着语言模块已经拥有“50”、“99”等数字标签的语义知识，但在视觉数据中从未见过这些数字对应的图像。

通过这种设计，模型面临三个不同的评估区间：

训练域（Training Domain，N=1-49）：视觉和文本均见过。
视觉外推区间（Visual Extrapolation，VE，N=50-99）：文本计数知识存在（语言解码器已预训练到 N=99），但视觉计数仅训练到 N=49，因此视觉-文本配对缺失。
完全外推区间（Full Extrapolation，FE，N=100-120）：视觉密度和文本数量均未见。

线性探针与隐藏数目的测量

为了直接测量视觉骨干网络内部是否保留有效的数量表示，作者训练了一个线性探针（linear probe）——一种简单的线性分类器——从视觉编码器的中间层（通常是最后一层 CLS token 或区域特征）中解码出隐藏的计数。线性探针的训练数据仅来自训练域（N≤49），然后测试其在外推域（N≥50）的泛化性能。如果线性探针能够在测试集上准确预测 N，则说明视觉特征在 N 个维度上保持线性可分离性，即模型“看到了”不同数量之间的差异。作者定义了两个关键指标（图3的视觉差距和语言差距）：

视觉差距（Vision Gap，|N_G - N_H|）：其中 N_G 是线性探针从视觉特征中解码出的计数，N_H 是真实计数。视觉差距为零表示线性探针完美恢复真实计数。
语言差距（Language Gap，|N_P - N_H|）：其中 N_P 是模型实际生成的数字字符串对应的数值（通过贪婪解码得到）。语言差距为零表示模型输出正确的数字。

通过对比这两个差距在外推域中的变化，可以精确定位瓶颈：如果视觉差距保持为零（视觉表示保留）而语言差距爆炸（解码失败），则瓶颈位于符号映射。

二元幅度比较任务

为了测试幅度意识，作者设计了二元比较任务。向模型呈现两种类型的输入：一个是视觉 Go 棋盘（包含 N_vis 个黑子），另一个是文本字符串（包含 N_txt 个字符，例如一串字母“A”重复 N_txt 次）。模型需要判断 N_vis 是否等于 N_txt，或者哪个更大。该任务不要求模型输出精确计数，只要求判断大小关系。作者比较了三种条件：

V-V（视觉 vs 视觉）：两个视觉棋盘比较。
T-T（文本 vs 文本）：两个文本字符串比较。
V-T（视觉 vs 文本）：跨模态比较。

关键结果来自 V-T 条件，因为它要求模型对齐视觉和文本中的数量信息。如果模型在 V-T 比较中表现良好，则说明尽管无法生成精确数字，但模型内部保留了跨模态的幅度意识。

验证于 Qwen3-VL

为了验证在真实世界 VLM 上的泛化性，作者选择 Qwen3-VL 作为基础模型。Qwen3-VL 是阿里巴巴最新发布的多模态大模型，具有大规模的预训练数据和高性能。作者在 Qwen3-VL 上重复了上述实验框架，以确认那些在合成设置中观察到的现象是否在真实架构中仍然成立。

实验：设置、指标与结果

实验设计的严谨性

这篇论文的实验设计很干净，因为作者刻意把真实图像中的复杂变量剥离掉。Go 棋盘只保留“可计数对象数量”这一核心因素，避免了遮挡、类别识别、纹理、尺度和背景复杂度等因素混入分析。这样做的好处是，一旦模型失败，就很难把错误归因于低层视觉识别困难；如果模型仍然失败，就更可能是表示对齐或符号输出机制的问题。训练区间和测试区间的划分也很关键。视觉计数只训练到 49，而文本计数预训练到 99，这制造了一个诊断性很强的视觉外推区间：模型“知道”50 到 99 这些语言数字，但从未见过对应数量的视觉样本。正因为如此，图2中的崩溃不能简单解释为语言端不知道数字，而是视觉数量到语言数字之间的桥没有搭好。线性探针的使用也很克制。作者并没有把探针结果当成模型最终能力，而是用它回答一个更窄的问题：视觉骨干中是否存在可线性读出的数量信息。如果探针能在未见数量上恢复真实计数，就说明视觉表征中保留了数量结构；如果生成端仍输出错误数字，就可以把瓶颈进一步收缩到跨模态符号解码。这种“先证明信息存在，再定位信息无法被使用”的思路，是本文最有说服力的地方。

数据集

论文使用合成 Go 棋盘作为唯一的视觉数据集。棋盘大小为 15×15，黑子和白子交替放置，黑子数量 N 从 1 到 120 变化。每个 N 值生成多个随机分布（改变黑子在棋盘上的位置），确保模型不能简单地学习位置模式。训练集仅包含 N∈[1,49] 的样本，验证集和测试集包含所有 N∈[1,120] 的样本，但按照外推区间划分。

主实验与指标

计数准确率 模型输出数字与真实数字完全一致的准确率（以字符串精确匹配计算）。
语言差距 |N_P - N_H|，反映解码误差的绝对值。

同时，通过线性探针测量视觉差距，评估视觉表示质量。

主结果

结果1：视觉计数外推灾难性崩溃（图2）

图2展示了模型在文本计数和视觉计数上的对比。文本计数（青铜色区域）从 N=1 到 N=99 准确率始终保持接近 100%，说明语言解码器完美泛化。然而，视觉计数（红色线）在训练域内（N≤49）准确率接近 100%，但一旦进入视觉外推区间（N=50），准确率立即崩溃至接近 0%，并在完全外推区间持续为 0%。这种鲜明的分离（“基准悖论”）证明：模型拥有语言标签，但无法将其应用于新的视觉数量。图2：基准悖论。语言侧文本计数可以泛化到 99，但视觉计数在超过训练分布后立即崩溃，说明语言数字知识不能自动迁移到未见视觉数量。来源：原论文。 结果2：视觉骨干保留鲁棒表示（图3）

线性探针的结果在图3中展示。视觉差距（蓝色虚线）在所有区间（包括外推区间）都保持为零，说明线性探针能够完美地从视觉特征中解码出真实计数。这意味着视觉骨干网络在 N=50-120 的范围内仍然产生线性可分离的、鲁棒的数量表示。相反，语言差距（红色实线）在 N≥50 时立即爆炸，从零变为很大的值（平均误差超过 30）。这一对比清晰地表明：模型“看到了”数量，但“说不出”数量——瓶颈不在感知阶段，而在符号映射阶段。图3：视觉表征保持稳定，而符号解码崩溃。视觉差距在外推区间仍接近零，但语言差距迅速增大，表明瓶颈位于视觉数量到数字符号的映射。来源：原论文。 结果3：模型保持幅度比较能力（图4）

在二元幅度比较任务中，模型在视觉外推区间（N=50-99）上对视觉-文本比较（V-T）保持了超过 90% 的准确率。即使显式枚举准确率为 0%，模型仍然能够正确判断视觉集合的大小是否与文本字符串的长度相等或谁大谁小。例如，模型可以准确判断“一组 110 个黑子”与“一个 110 字符的文本字符串”是相等的，尽管它无法说出“110”这个数字。这证明了模型拥有潜在的幅度意识——它能够感知和比较数量的相对大小，但无法将其与符号标签对齐。图4：模型能比较无法命名的数量。在二元幅度比较任务中，模型即使显式计数失败，仍能保持较高比较准确率，说明其幅度意识并未完全丢失。来源：原论文。

结果背后的机制含义

图2、图3和图4共同构成了论文的核心证据链。图2首先展示现象：文本计数能力没有问题，视觉计数一出训练范围就崩溃。图3进一步排除视觉表示不足的解释：线性探针仍能从视觉特征中恢复真实数量，因此视觉空间中并没有丢失数量信息。图4再排除幅度意识不足的解释：模型虽然无法准确枚举数量，却能在二元比较任务中判断两个集合的大小关系。因此，最合理的解释就是符号映射断裂。视觉模态和文本模态各自学习到局部有效的统计流形，但没有形成统一的跨模态数字空间。这个结论也解释了为什么单纯扩大数据未必能解决问题：如果训练目标没有强制视觉数量表征与语言数字表征对齐，模型可能继续在两个模态中分别插值，而无法真正建立可外推的数字概念。

Qwen3-VL 验证

在 Qwen3-VL 上重复实验，结果与合成实验室保持一致：视觉骨干在外推域中的表示仍具有一定线性可分离性（但存在轻微噪声，可能是由于真实预训练数据的复杂性），模型在幅度比较任务中仍保留高准确率，而显式计数在外推域中崩溃。尽管 Qwen3-VL 的视觉感知和幅度处理受到一定噪声干扰，但灾难性失败的根本原因仍然一致——由符号映射阶段的结构性断开驱动。这验证了断裂幅度假说在真实世界大规模模型中的普遍性。

消融与进一步分析

结论：贡献、局限与启发

主要贡献

精确定位瓶颈：首次明确回答视觉计数外推失败的根本原因是符号映射阶段的崩溃，而非感知或数值认知能力的缺失。这为后续 VLM 设计提供了精确的改进方向。
提出断裂幅度假说：构建了一个理论框架，解释 VLM 为何未能学习跨模态统一的数字空间。模型在视觉侧和文本侧各维护一个模态特定的统计流形，二者之间缺乏有效的接地，导致外推时无法对齐。
验证于最先进模型：在 Qwen3-VL 上确认现象，表明该瓶颈并非特定于实验室环境，而是在当前最先进架构中普遍存在。

局限性

原文未明确说明局限性，但根据论文内容和一般学术规范，我们可以推断一些隐含的局限性：

合成 Go 棋盘虽然干净，但可能过于简化，真实世界中的视觉计数还涉及物体识别、遮挡、尺度变化等复杂因素，本文的结论是否完全移植到真实场景需要进一步验证。
论文只测试了视觉计数这一特定任务，断裂幅度假说是否适用于其他模态（如听觉数值、“多少”的比较任务）尚不清楚。
作者提出的解决方案（强制统一表示的归纳先验）仍是方向性建议，并未在本文中实现和验证。

对 VLM 设计的启发

这项工作对多模态模型训练有一个很直接的启发：计数、比较、排序这类基础能力，不能只依赖自然数据中的弱监督共现。模型需要显式的归纳偏置或训练目标，迫使视觉幅度表示与语言符号表示共享同一数值结构。例如，可以引入跨模态数量对比损失、数轴连续性约束、显式数量嵌入，或把视觉数量与文本数字映射到同一个可外推的表示空间。它也提示评测需要更细。只报告最终计数准确率，无法区分“看不见”“不理解数量”和“无法命名数量”三种错误。未来 VLM 评测应更多采用机制诊断：探针、比较任务、符号生成任务和跨模态对齐任务联合使用，才能判断模型到底在哪个环节失败。更广义地看，这篇论文讨论的不只是计数，而是多模态系统中“连续感知量”如何落到“离散语言符号”上的问题。颜色深浅、空间距离、数量多少、时间长短都可能遇到类似瓶颈。若模型只在每个模态内部学到局部统计规律，却没有统一的抽象量纲，那么它在简单插值样本上可以表现很好，一旦需要跨分布、跨模态地命名或推理，就会暴露结构性断裂。

对未来的启发

跨模态统一表示的学习：本文最直接的启发是：需要设计能够促使视觉和语言模块共享同一个数字流形的归纳先验。例如，可以尝试在预训练阶段加入跨模态数量对比损失，强制视觉和文本中的数量表示对齐，或者引入位置编码式的数字嵌入。
重新审视数据缩放策略：当前大模型的主流提升路径是扩大预训练数据规模，然而本文表明单纯数据缩放无法解决此类模态断裂问题。这提示我们，在数据之外，架构设计和学习目标的设计可能更加关键。
认知科学视角的 AI 研究：将认知阶段分解引入 AI 系统诊断，是一种有价值的方法论。类似于本文通过线性探针“读心”的方式，未来的研究可以借鉴认知科学的工具（如心理物理学、比较心理学）来系统分析 AI 系统的内部表征。
对计数外推的其他解释的检验：本文从模态层面进行了解释，但还有可能的研究方向涉及注意力机制、位置编码的局限性、或数字标记的表示方式等。未来可以将这些因素与断裂幅度假说结合，形成更完整的理论。

原文信息

本文原文为 Unveiling the Visual Counting Bottleneck in Vision-Language Models，作者 Xingzhou Pang, Yifan Hou, Junling Wang, Mrinmaya Sachan，发表于 ICML 2026。论文原文及代码链接如下：