ACL 2026综述｜多模态基础模型测试时扩展：生成与推理统一框架

导读

基础模型的发展长期遵循一条朴素路线：增加参数、扩大训练数据、投入更多训练算力。随着预训练规模继续扩张，成本越来越高、迭代越来越慢，而边际收益开始下降，研究重心因此逐渐从“训练一个更大的模型”转向“让现有强模型在推理时多思考一会儿”。测试时扩展（Test-Time Scaling，TTS）正是在这一背景下成为新的研究主线。

在语言模型中，TTS 已经形成采样、验证、搜索和反思等典型范式；但当对象从纯文本 LLM 变成多模态基础模型时，问题明显更复杂。模型不仅需要扩展语言推理深度，还必须处理图像感知、空间定位、视频时间关系、视觉语义一致性以及动作规划。候选答案是否正确，也不能只看文本逻辑是否自洽，还要核查它是否忠于视觉证据、是否保持跨帧一致、是否生成符合物理和语义约束的内容。

ACL 2026 Findings 综述 Test-Time Scaling in Multimodal Foundation Models: A Comprehensive Survey of Generation and Reasoning 系统梳理了这一快速发展的方向。论文将多模态 TTS 统一划分为三类：采样式方法、反馈式方法与搜索式方法。采样式方法通过生成更多候选提高命中高质量结果的概率；反馈式方法借助奖励模型、验证器或反思循环逐步修正输出；搜索式方法则显式展开推理或生成轨迹，通过剪枝、回溯和动态预算分配探索更优路径。

这三类方法并不是彼此排斥的算法标签，而是三种不同的推理计算组织方式。采样更适合并行、结果容易评估但中间过程难验证的任务；反馈能够提供比单纯投票更定向的修正，但会引入验证器依赖和串行延迟；搜索最适合具有结构化中间状态的数学、空间、视频和行动推理，却往往拥有最高计算开销。理解这种任务结构与扩展策略之间的匹配关系，是阅读本文的重点。

综述还给出了一个重要边界：本文讨论的 TTS 以计算扩展为核心，测试时模型参数保持不变，额外预算用于采样、搜索、验证和迭代优化。改变检索缓存或长期状态主要属于测试时记忆，使用梯度、微调或 LoRA 改变参数则属于测试时训练或适配。现实系统可能混合这些机制，但应按主导资源和核心能力来源区分。本文严格按照原论文组织结构展开，一级标题保留英文与中文，其他层级标题全部中文。除完整介绍统一分类外，还将重点梳理图像与视频生成、视频推理、视觉语言行动、数学推理等应用，结合附录基准说明当前评价体系，并讨论混合扩展、错误传播和幻觉控制三项关键挑战。

论文基本信息

英文题目 Test-Time Scaling in Multimodal Foundation Models: A Comprehensive Survey of Generation and Reasoning
中文题目 多模态基础模型中的测试时扩展：生成与推理综合综述
作者 Cong Wan、Ying He、Zhongzhan Huang、Hefeng Wu
作者单位 Sun Yat-sen University（中山大学）
论文类型 综述论文
会议信息 ACL 2026 Findings
arXiv ID 2606.08231
研究领域 多模态基础模型、测试时扩展、多模态生成、多模态推理
首次提交日期 2026 年 6 月 6 日
原文链接 https://arxiv.org/abs/2606.08231

Abstract / 摘要

测试时扩展通过在推理阶段动态分配计算资源来增强模型性能，已经成为基础模型研究的重要方向。近期工作开始把这一范式从语言模型扩展至多模态基础模型，在多模态生成和推理任务上展现出新的潜力。然而，该领域发展迅速、方法分散，尚缺少系统综述和统一理论框架。为弥补这一空白，论文对多模态基础模型的 TTS 研究进行了全面梳理，提出由采样式、反馈式和搜索式方法构成的统一分类体系。作者进一步总结这些方法在多模态生成与推理中的代表性应用，整理常用基准，并分析不同方法的适用场景与性能—效率权衡。最后，论文讨论混合扩展、错误传播和幻觉控制等开放问题，为后续研究提供系统路线图。作者将该工作定位为首篇专门面向多模态基础模型测试时扩展的综合综述。

1 Introduction / 引言

从训练规模扩展转向推理计算扩展

大语言模型的能力提升在很大程度上来自预训练扩展定律：参数量、数据量和训练计算共同增长，通常能够带来可预测的性能改善。这一模式推动了 GPT、Gemini 等基础模型的快速发展，也使“规模”成为模型能力的重要来源。但训练期扩展具有明显局限。超大规模训练需要昂贵硬件、长期工程投入和复杂数据治理，只有少数机构能够承担；一次训练完成后，模型能力又相对静态，难以针对每个测试样本灵活分配资源。更重要的是，当参数和数据规模达到较高水平后，继续堆叠训练成本的边际收益会降低。 TTS 提供了一条互补路径：不修改模型参数，而是在面对具体输入时增加推理预算。简单样本可以快速回答，困难样本可以生成更多候选、调用验证器、展开搜索或执行多轮修正。这种“按实例付费”的计算方式拥有更快迭代速度、更广参与范围和更灵活的搜索空间。图 1：多模态测试时扩展的发展趋势。上方展示 2024 年第四季度至 2025 年第四季度的代表工作演化，下方展示相关论文数量增长，以及预训练扩展与测试时扩展在成本、迭代速度和搜索空间上的差异。来源：原论文图 1。

为什么要单独研究多模态测试时扩展

多模态基础模型包括以多模态大语言模型为代表的理解和推理系统，也包括以扩散模型为代表的视觉生成系统。它们将图像、视频、文本乃至动作统一到可计算表示中，为跨模态理解、生成和决策奠定基础。语言模型中的 TTS 技术可以提供启发，却不能原样照搬。纯文本推理主要扩展语言思维链，而多模态模型同时面对感知、定位、时间建模与语义推理。一个文本答案可能逻辑完整，但引用了图中不存在的物体；一段视频可能单帧质量良好，却在长时间范围内出现人物身份、运动方向或场景状态漂移；一条机器人动作链也可能在语言上合理，却违反环境约束。因此，多模态 TTS 不只需要“多生成几个答案”，还需要跨模态验证中间步骤。评估信号可能来自 CLIP 等显式函数、视觉语言模型评审器、输出奖励模型、过程奖励模型、世界模型或环境反馈。计算预算也不只用于增加语言 token，而可能用于扩大图像候选数、增加扩散轨迹、读取更多视频帧、放大局部区域或模拟更多动作路径。

综述的范围与贡献

作者认为，此前综述主要面向 LLM 测试时计算，尚未形成专门针对多模态基础模型的统一框架。本文的主要贡献有三点。第一，提供首篇系统性多模态 TTS 综述，将分散在图像生成、视频推理、视觉数学、GUI 定位和机器人控制等领域的工作纳入同一视角。第二，提出统一分类体系。论文不按应用领域简单罗列方法，而是按测试时计算的组织机制划分为采样式、反馈式和搜索式三类，并继续细分为优中选优、多数投票、奖励模型、迭代精炼、束搜索、树搜索以及启发式与自适应搜索。第三，建立未来路线图。论文整理多模态生成与推理基准，比较三类方法的适用条件和成本结构，并把混合扩展、长链错误传播与过程级幻觉控制列为核心开放问题。

2 Background / 背景

多模态基础模型的技术基础

论文重点讨论两类承载 TTS 的基础架构：多模态大语言模型与扩散模型。前者主要服务于理解、推理和统一序列生成，后者则是当前视觉生成的主流框架。

# 多模态大语言模型

理解型多模态大语言模型通常把图像、音频或视频编码成连续特征或离散 token，再映射到语言解码器的输入空间，使其能够以类似文本生成的方式处理多模态输入。这种统一序列接口天然支持思维链、多步验证和多候选解码。具备多模态生成能力的模型会进一步把视觉输出离散化为 token，直接进行自回归生成，或把多模态表示路由到专用视觉解码器。无论采用哪种方式，生成都可以被理解为一个连续决策或特征规划过程：模型在多个中间状态之间选择下一步，从而允许搜索、验证和迭代精炼介入。对于理解任务，TTS 可以扩展推理路径、局部观察和证据整合；对于生成任务，TTS 可以扩展候选图像、视觉 token 路径、提示条件和解码轨迹。两者共享“固定参数、扩大测试时决策空间”的思想，但内部状态和评估信号不同。

# 扩散模型

扩散模型通过逐步加噪把真实数据变为高斯噪声，再训练网络执行逆向去噪。与单步生成器不同，扩散模型本身就包含多步迭代过程，因此天然存在计算预算与生成质量之间的调节空间。传统做法往往通过增加去噪步数或调整分类器无关引导强度提升质量，但多模态 TTS 的范围更广：它可以在每个去噪阶段并行采样多个潜变量，根据 CLIP、VLM 或奖励模型选择更优分支；也可以把已有输出和验证反馈重新输入模型，形成反思式精炼；还可以把潜空间搜索建模为束搜索、树搜索或多臂赌博机问题。扩散模型的可控条件、潜变量轨迹和逐步重建过程，为测试时选择与优化提供了丰富接口。与此同时，其中间状态不像文本推理步骤那样容易解释和验证，这也使奖励设计与过程监督更具挑战。

多模态模型为何需要测试时扩展

TTS 的直接优势是避免再次训练模型，以相对灵活的方式提升困难样本表现。面对分布变化或任务难度差异，系统可以立即调整采样数、搜索宽度、验证次数或输入分辨率，而不必更新权重。更深层原因是单次解码路径经常不足以覆盖高维多模态问题。图像生成拥有巨大的潜在输出空间，同一文本提示可以对应许多合理图像；视频推理需要从大量帧中定位关键事件；空间推理要组合物体关系与视角变化；机器人决策要评估长期动作后果。单一路径一旦早期选错，后续步骤可能沿错误方向继续展开。多模态 TTS 通过候选多样性、反馈校正和结构化搜索拓展解空间。然而，它比纯文本 TTS 更难，因为计算必须同时分配给感知证据、空间定位、时间上下文和语义推理。中间状态的评价也必须满足跨模态忠实性，不能只检查语言连贯。很多方法因此需要额外 VLM 或奖励模型作为评审器。这使多模态 TTS 的性能不只由主模型决定，还取决于验证器是否理解视觉细节、是否产生偏置，以及评估开销是否抵消扩展收益。

测试时扩展的范围与形式化

论文把 TTS 形式化为：在模型参数固定的条件下，从一组推理过程之中选择策略，使预期任务效用最大，同时满足测试时计算预算约束。输入为 x，固定模型参数为 θ，推理过程产生输出 y；效用函数衡量质量，成本函数衡量推理过程消耗，预算 B 限制可用计算。这一形式化强调，真正被扩展的是推理过程而不是参数。不同样本可以采用不同推理策略与成本：容易样本一次解码，困难样本增加候选、搜索深度或反馈轮数。作者进一步区分测试时可能变化的三类资源：

计算资源：增加采样、搜索、验证和迭代精炼，属于本文重点讨论的 TTS。
记忆或动态状态：增加检索库、情景记忆、持久缓存或更丰富的隐藏状态，主要属于测试时记忆。
模型权重：通过梯度、微调、LoRA 或轻量适配更新参数，属于测试时训练或测试时适配。

现实方法可能同时使用检索、缓存与计算扩展。论文建议根据主导扩展维度进行分类：若检索只是辅助搜索，核心收益来自更多搜索和验证计算，可纳入 TTS；若系统能力主要来自不断积累的动态记忆，则应视为测试时记忆。表 1：测试时扩展、测试时记忆与测试时训练或适配的边界。三者分别主要扩展计算、动态上下文或缓存、模型参数，对应的典型机制和评估指标也不同。来源：原论文表 A.2。

3 Multimodal Test-time Scaling / 多模态测试时扩展

论文的核心章节建立了多模态 TTS 的统一分类。三大范式分别回答不同问题：采样式方法回答“能否通过更多候选找到更好答案”，反馈式方法回答“能否用评价信号把当前结果逐步改好”，搜索式方法回答“能否在结构化状态空间中规划并回退到更优轨迹”。图 2：多模态测试时扩展的统一分类。采样式方法包括优中选优与多数投票；反馈式方法包括奖励模型与迭代精炼；搜索式方法包括束搜索、树搜索、启发式与自适应搜索。来源：原论文图 2。

采样式方法

采样式方法通过并行生成多个候选解来扩大测试时计算。与单次生成相比，多候选能够覆盖更广的视觉或推理空间，最终再由选择器或聚合器输出结果。其核心优势是并行性强、实现简单，主要分为优中选优和多数投票。

# 优中选优

优中选优方法生成 N 个候选，再使用显式打分函数或多模态模型评审器选择最高分结果。打分信号可以是视觉—文本对齐分数、奖励模型输出、KL 距离、任务效用或语义一致性。在图像生成中，TTGen 在扩散去噪阶段根据 CLIP 分数选择更优潜变量；SANA 1.5 进一步使用锦标赛式候选比较和 VLM 评分过滤不匹配结果。CoDe 不在全局一次生成大量完整样本，而是在反向扩散过程中周期性执行局部优中选优，以减少总体开销。在统一生成与理解任务中，UniGen 结合思维链验证，让同一多模态模型同时承担生成器和验证器。Sim4Seg 则联合扩展语义推理路径和视觉解码扰动，把优中选优用于医学诊断分割。视觉语言行动模型也可以并行生成动作候选，并依据与参考分布的差异筛选更稳健动作。这种方法的关键不在“生成更多”本身，而在于评审器能否正确排序。如果验证器与真实任务目标不一致，增加 N 可能只会提高挑中“迎合验证器”结果的概率。候选相关性过高也会降低收益，因此采样温度、扰动方式和候选多样性同样重要。

# 多数投票

多数投票不一定需要独立奖励模型，而是聚合多条候选路径，选择出现频率最高或彼此最一致的答案。它建立在一个假设上：正确答案在不同随机路径中更稳定，而错误更分散。传统答案级投票对开放式多模态输出并不总是适用。CoT-Vid 使用角色级路径聚类替代简单字符串匹配，从中寻找推理过程的一致结构；Video-RTS 结合渐进式帧扩展与多路径一致性投票，提高少样本视频推理稳定性；RoboMonkey 对视觉语言行动输入加入高斯扰动，生成动作分布并通过投票选择更可靠执行路径。医学诊断、具身问答和视频问答中，多数投票可以降低偶然感知错误，但如果模型在多个候选中共享同一系统偏差，投票会强化而非纠正错误。它更擅长处理随机不稳定性，不擅长处理一致性幻觉。图 3：采样式方法示意。左侧优中选优使用评分或奖励模型从多条候选路径中选择最高质量结果；右侧多数投票聚合多条候选的共同结论。来源：原论文图 3。

反馈式方法

反馈式方法依赖辅助评价信号，在推理期间筛选、引导或修正输出。它比纯采样更定向：不是只增加候选数量，而是让后续计算依据前一轮结果和反馈集中到问题区域。论文将其分为奖励模型与迭代精炼。

# 奖励模型

根据评价发生在最终输出还是中间过程，奖励模型可分为输出奖励模型与过程奖励模型。输出奖励模型对完整候选进行评分，通常与优中选优组合。它适合最终质量可评估、过程难以显式监督的任务。例如，使用强 VLM 对生成图像进行零样本评价，再从多个候选中选择对齐度和视觉质量更高的结果。EQA-RM 不只输出分数，还生成针对推理与视觉定位错误的细粒度批评，为后续决策提供解释性反馈。过程奖励模型则评价中间步骤，为束搜索或树搜索提供局部方向。VisualPRM、Athena、VReST 等工作尝试判断每一步是否有用、是否正确、是否与视觉证据相关。VReST 在多模态数学推理中同时考虑子问题效用和跨模态相关性；RoVer 使用可插拔过程奖励模型优化视觉语言行动模型的六自由度姿态，而无需重新训练主模型。过程奖励比最终奖励更适合长链推理，因为它能够在错误尚未扩散前进行干预。但构建可靠过程标签非常困难。中间步骤可能语言正确却视觉错误，或当前局部看似不优却为后续提供必要信息。奖励模型本身也可能产生幻觉或偏好投机路径。

# 迭代精炼

迭代精炼建立显式的“生成—评价—纠正”循环。系统先产生结果，再让验证器指出问题，随后将反馈和历史输出交回生成器进行下一轮修正。与奖励模型只负责排序不同，迭代精炼会直接改变输出内容或输入条件。 Reflect-DiT 将 VLM 对既有图像的反馈输入扩散 Transformer，逐轮改进图像。GenPilot、ImAgent 与 RAPO++ 等方法通过视觉验证不断重写提示，使后续生成更符合语义和视觉要求。UI2Code 使用“生成—观察—纠正”的视觉反馈循环改进界面代码，DiMo-GUI 则通过动态放大关键区域反复修正坐标。视频任务中的难点是长时间注意力漂移和跨帧错误。CyberV 使用传感器—控制器式反馈回路监测推理偏离并触发自我纠正；VideoChat-R1.5 反复调整视觉感知和语言推理，将更多计算集中到关键时空区域。多智能体框架也可以形成反馈闭环。Metal 让不同智能体对图表代码进行批评和修正，Vidorag 则在视觉文档推理中执行探索、检查和回答循环。多智能体能够提供多样反馈，但成本和协调复杂度随轮数增长。图 4：反馈式方法示意。输出奖励模型评价最终候选，过程奖励模型评价中间节点，迭代精炼则通过生成器与验证器之间的反馈循环持续修改结果。来源：原论文图 4。

搜索式方法

搜索式 TTS 把推理或生成视为结构化轨迹探索。系统显式维护多个状态、候选路径与转移关系，通过评价、剪枝和回溯寻找更优解，而不是仅依靠独立随机采样或输出后的局部修改。

# 束搜索

束搜索在每个生成阶段保留若干高分候选，删除低分分支，以有限宽度近似探索大规模状态空间。它在搜索广度与计算成本之间提供清晰控制，适合具有逐步生成结构的任务。视频生成中，束搜索可以结合 Top-K 采样探索时空序列；扩散潜变量束搜索则用前瞻估计器判断当前潜轨迹未来的对齐收益。部分方法根据噪声阶段动态调整树宽和束宽：早期保留更多多样性，后期集中于高奖励区域。在多模态推理中，LLaVA-CoT 把束搜索与回溯结合，当局部候选表现不佳时退回先前阶段重新生成。MindJourney 使用世界模型模拟每个束候选的未来视图，再由 VLM 评估空间路径，从而把视觉想象和规划纳入测试时扩展。

# 树搜索

树搜索通过递归分支、评价和回溯系统探索解空间，能够表达比固定宽度束搜索更复杂的决策结构。多模态任务中，树节点既可以是语言推理步骤，也可以是图像局部、视频关键帧、动作状态或检索结果。 ZoomEye 使用多尺度树搜索模拟人类不断放大图像寻找细节的过程；AKEYS 通过智能体驱动的二叉搜索挑选关键视频帧；VisuoThink 把慢思考表示为视觉—文本交错树，并通过预测性回滚放弃不理想路径。蒙特卡洛树搜索是其中的重要分支。VReST 和 VLA-Reasoner 分别利用内部自奖励和世界模型模拟指导 MCTS；其他方法把主动检索或多模型集体学习接入树搜索，以提高知识覆盖和推理稳健性。MCTS 的优势是能在探索未知分支与利用高价值分支之间动态权衡，但每个节点都可能需要模型生成、验证器评分甚至环境模拟，成本很高。

# 启发式与自适应搜索

启发式与自适应方法不受固定束或树结构限制，而是根据任务难度、置信度和中间表现动态改变搜索方式。进化搜索可以在潜空间中执行选择和变异，不依赖梯度实现测试时对齐；去噪轨迹也可被建模为多臂赌博机，通过探索—利用策略选择更有希望的方向。自适应预算分配是这一类方法的重要目标。VideoICL 和循环扩散搜索在模型达到一致性或置信条件时提前停止，避免对简单样本浪费计算。Video-RTS 从稀疏帧开始，根据输出一致性逐渐增加视频帧；TTS-VAR 在生成早期偏向多样性聚类，后期转向奖励引导重采样。这类方法更接近理想的按难度分配计算，但停止条件本身可能不可靠。如果模型在错误答案上过早形成高置信一致性，自适应机制会提前结束；如果评价信号噪声大，系统也可能不断扩展而无法收敛。图 5：搜索式方法示意。束搜索在每层保留有限高分候选，树搜索允许更自由的分支、剪枝与回溯，以探索结构化多模态推理或生成轨迹。来源：原论文图 5。

三类方法的比较与权衡

多模态 TTS 的有效性与任务结构紧密相关。图像和视频生成通常更关注最终视觉质量，而中间潜状态缺少明确可验证语义，因此并行采样和迭代精炼往往比完整树搜索更实用。评分器可以直接比较最终图像与文本提示的对齐程度，反馈循环也能针对明显缺陷继续修正。数学、空间和行动推理拥有相对结构化的中间步骤，更适合搜索。系统可以判断局部计算、视觉定位或动作模拟是否合理，剪掉错误分支并回溯。过程监督越可靠，搜索带来的收益越大。反馈式方法位于两者之间。它比纯采样提供更定向的指导，又通常比全面搜索成本低。输出奖励模型适合最终结果容易比较的任务，过程奖励模型适合长链推理，迭代精炼适合能够根据自然语言或视觉反馈进行局部修复的生成任务。从工程属性看，采样最容易并行，但候选增加后的边际收益会下降；反馈引入验证器调用和串行循环，延迟取决于评审模型；搜索需要重复分支、评分和回滚，开销最高，却常在准确性优先且过程可监督的长链推理中表现最好。三类方法共同面临验证器瓶颈。无论是选 N 个候选、给中间节点奖励还是决定搜索分支，最终都需要某种质量判断。如果评价信号不能覆盖真实任务目标，更多计算可能放大错误偏好，而不是稳定提高能力。

4 Applications / 应用

多模态生成

# 图像生成

图像生成中的 TTS 主要围绕推理计算与视觉—语义对齐之间的交换展开。最直接策略是并行生成多个候选，再使用 CLIP、VLM 或奖励模型筛选。它适用于文本提示存在多种合理实现、单次生成容易遗漏对象或关系的场景。局部选择能够降低全局优中选优成本。例如在扩散过程中按固定间隔比较潜变量，只保留更符合条件的轨迹，而不是等待全部候选完成。另一类方法通过反馈改写提示或条件信号：验证器指出物体缺失、关系错误或风格偏离，生成器据此重新采样和修正。评价仍是主要难题。CLIPScore 能够衡量整体对齐，却可能忽略计数、空间关系和文字细节；VLM 评审器理解力更强，但可能偏好特定风格或产生语言幻觉。因此图像 TTS 往往需要组合语义分数、感知质量、结构约束与人工偏好。

# 视频生成

视频生成除单帧质量外，还要保持动作连续、人物身份稳定、镜头逻辑和长时间语义一致。错误会沿时间积累，一个早期方向或物体状态偏差可能在后续帧持续放大。因此，视频生成更常使用束搜索、树搜索和过程奖励模型探索时空轨迹。系统并行维护多个帧序列候选，评估未来一致性，剪掉明显不连贯路径。部分方法搜索扩散潜轨迹，部分方法优化文本提示与视觉反馈，另一些方法则在不同阶段动态调整候选数量和搜索宽度。长视频 TTS 的成本远高于图像，因为每个候选都包含大量帧，验证器还要理解时间关系。高效实现需要关键帧评价、分层搜索、早停和稀疏到稠密计算，避免对所有时间位置使用相同预算。

多模态推理

# 视频推理

视频推理需要在长上下文中找到与问题相关的片段。把所有帧平均送入模型既昂贵又容易稀释关键信息。TTS 因此可以把额外计算用于时间搜索：先粗略扫描，再根据查询和当前答案定位关键帧或片段。 AKEYS 等方法使用树式关键帧搜索；Video-RTS 根据多路径答案一致性决定是否增加帧；迭代精炼方法则反复提取证据并判断其与问题的相关性。其共同目标不是无条件读取更多视频，而是让计算聚焦到决定答案的关键事件。评价视频 TTS 时，除了最终准确率，还应报告使用帧数、视觉 token 数、搜索轮数和延迟。否则，一个方法可能仅仅因为消费了远多于基线的视觉信息而显得更强。

# 视觉语言行动

视觉语言行动模型需要把视觉观察和语言指令转化为物理动作。误差成本高，动作空间大，并且一个局部错误会影响后续环境状态。TTS 在这里主要采用并行动作采样和树搜索。采样式方法生成多条候选行动轨迹，通过一致性、奖励或参考分布选择稳健路径。树搜索与世界模型则允许模型向前模拟动作后果，比较长期收益并避开危险状态。VLA-Reasoner 使用在线 MCTS 扩展行动推理，RoVer 通过过程验证优化姿态。行动任务的验证信号比静态问答更难，因为离线评分不一定反映真实执行效果。高保真模拟器、世界模型和环境反馈成为关键组件，但模拟偏差也可能让搜索选择在虚拟环境中优秀、现实中失败的策略。

# 数学推理

多模态数学推理要求同时读取图表、几何关系、公式和文本条件，再执行长链计算。视觉误读与计算错误会互相影响，适合使用 MCTS、过程奖励和回滚机制。搜索能够显式探索不同解题路径，过程验证器检查每一步的数学正确性和视觉证据相关性。当发现某个中间计算或图形解释错误时，系统回到先前节点重新选择，而不是在错误前提上继续生成。但过程奖励必须同时理解数学和视觉。只检查公式可能忽略图中条件，只检查视觉描述又无法判断推导。高质量多模态过程监督是该领域进一步扩展的核心基础。

5 Challenges and Future Directions / 挑战与未来方向

混合扩展

现有方法多数依赖单一机制：增加采样路径、循环反馈或执行搜索。单独采样易于并行，但大规模候选成本高且收益递减；单独搜索能够规划，却会在巨大状态空间中产生昂贵分支；单独反思则可能不断修改而缺少全局探索。未来更有潜力的方向是混合扩展。例如，先用少量并行采样建立候选多样性，再用奖励模型筛选高潜力路径，最后只对困难分支执行树搜索和反思。计算预算可以根据样本难度、分支不确定性和验证器分歧动态分配。混合系统的难点是调度。何时从采样切换到搜索、何时调用昂贵过程验证器、何时停止反思，都需要稳定控制信号。若调度器本身不可靠，复杂组合可能只增加成本而不提升性能。

错误传播

多模态长链推理存在明显雪球效应。早期把图像物体识别错、把视频事件顺序判断错或把空间关系理解反，后续推理会把错误当作事实反复使用，最终形成逻辑完整但根基错误的答案。当前许多 TTS 方法仍以最终输出优化为主，只有在结果产生后才检测问题。此时错误已经传播到多个步骤，简单重写结论难以修复。更合理的方向是轨迹纠错奖励模型：在推理过程中持续检查视觉证据、语义状态和逻辑转移。关键节点验证也是一种折中。系统无需评价每个 token，而是在对象识别、关键帧选择、子问题答案、动作模拟等高影响节点执行严格核验。这样可以在控制开销的同时阻断主要错误路径。

幻觉控制

多模态模型经常生成图中不存在的对象属性、关系或事件，使语言输出与感知现实脱节。当前方案多依赖最终事实一致性检查，但事后检测无法约束幻觉在推理过程中形成和传播。未来应从输出级纠错转向过程级抑制和动态验证。视觉—文本双向核查可以让语言结论反查图像证据，也让视觉描述接受语义约束；多层对齐则同时考虑像素或区域级感知、对象关系、全局语义和任务逻辑。幻觉控制还需要区分“感知不到”与“推理错误”。前者可能需要放大图像、检索关键帧或调用更强视觉编码器，后者可能需要搜索和过程奖励。如果不区分根因，系统可能用更多语言思考弥补缺失视觉信息，反而制造更自信的幻觉。

6 Conclusion / 结论

论文对多模态基础模型测试时扩展进行了系统梳理，建立采样式、反馈式和搜索式三类统一框架。该框架覆盖从图像与视频生成，到视频理解、视觉数学、GUI 定位和视觉语言行动等多种任务，揭示了不同方法背后的共同机制。 TTS 的核心不是简单延长输出，而是在参数固定条件下重新组织推理计算。采样扩大候选空间，反馈利用评价信号定向修正，搜索则在结构化轨迹中规划、剪枝和回溯。不同任务需要不同组合：最终结果易评价的生成任务更适合采样与精炼，中间状态可验证的复杂推理更适合搜索与过程监督。综述同时指出，更多计算不必然转化为更高可靠性。验证器偏差、长链错误传播、跨模态幻觉和计算成本会限制收益。未来需要能够按难度动态分配预算的混合扩展框架，以及更可靠的过程级跨模态验证机制。

7 Limitations / 局限性

作者明确说明了三项范围限制。第一，尽管“多模态”概念非常广，本文实际上聚焦视觉—语言模态，主要覆盖图像和视频，没有系统讨论音频、触觉或其他传感输入。因此，统一分类是否适用于语音交互、多传感机器人和沉浸式环境，还需要进一步验证。第二，论文优先总结多模态领域特有策略，没有与纯 LLM 的 TTS 技术进行全面对照。很多采样、奖励与搜索思想来自语言模型，但迁移后哪些机制保持不变、哪些性能差异来自感知模块，尚未做严格比较。第三，该领域更新速度极快。论文集中梳理 2024 年末至 2025 年的代表工作，仍可能遗漏最新成果；受篇幅限制，也无法穷尽每种技术和应用。读者应把本文视为统一框架和研究地图，而不是静态封闭的方法清单。此外，从综述内容可以看出，当前研究仍缺乏统一的计算归一化比较。不同论文使用不同主模型、候选数、验证器、帧数和搜索预算，仅比较任务分数容易掩盖真实效率差异。建立同时报告质量、FLOPs、延迟、视觉 token、模型调用次数和能耗的标准协议，是后续综述与基准工作需要补足的部分。

Appendix A Benchmarks / 附录 A：基准

多模态生成基准

图像生成基准覆盖不同评价目标。MSCOCO 常使用 CLIPScore 衡量语义一致性；DrawBench 和 GenEval 注重人工对齐和细粒度对象评价；T2I-CompBench 测试组合性；DPGBench 面向密集提示和复杂条件。视频生成基准包括 VBench、VBench2、MovieGenVideoBench、VideoGen-Eval 和 MovieBench。它们分别关注细粒度质量、内在忠实度、年龄偏差和长视频等方面。由于视频质量维度多，单一自动指标很难覆盖运动自然性、身份稳定、时间一致和语义对齐。

多模态推理基准

空间推理基准包括 SAT、SpatialRGBT、VSI-Bench 和 SPAR-Bench，涵盖动态空间推理、三维认知、视频空间关系与多视角理解。 GUI 定位使用 ScreenSpot、ScreenSpot-V2 和 ScreenSpot-Pro，逐步扩展到标注修正和专业高分辨率界面。数学推理则使用 MathVista、MathVision、MathVerse、WeMath 与 DynaMath，测试视觉—数学整合、跨版本泛化和分步推理。视频推理基准包括 MVBench、CG-Bench、MMBench-Video、LongVideoBench、MLVU、Video-MME 与 Video-MMMU，覆盖长视频、多类型任务和多学科专业知识。医学推理使用 OmniMedVQA、GMAI-MMBench 与 MedXpertQA；视觉语言行动则使用 SimplerEnv、LIBERO、CALVIN 和 ManiSkill2 测试视觉空间稳健性、长期泛化与动态操作。表 2：用于评价多模态生成与推理能力的基准全景，涵盖图像生成、视频生成、空间推理、GUI 定位、数学推理、视频推理、医学推理和视觉语言行动。来源：原论文表 A.1。

评价测试时扩展不能只看准确率

论文附录主要整理任务基准，但从 TTS 视角还需要增加计算维度。对采样式方法，应报告候选数量与并行资源；对反馈式方法，应报告验证器规模、反馈轮数与串行延迟；对搜索式方法，应报告搜索节点数、宽度、深度、回溯次数和早停比例。还应区分主模型能力提升和辅助模型能力。当一个小模型通过调用更大的 VLM 评审器获得高分时，系统总成本和能力来源不能被隐藏。统一报告端到端计算，才能判断 TTS 是否真正比更强单次推理或参数扩展更高效。

成为VIP会员查看完整内容