CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

导读

CVPR 2026 已经不再只是一场讨论识别、检测和分割的计算机视觉会议。根据 LIMIT.Lab 与 cvpaper.challenge 团队整理的 165 页现场报告，今年最明显的变化是：视觉研究正在从“理解图像”转向“理解并生成世界”，再进一步走向行动、交互与持续学习。

这份报告覆盖主会、Workshop、Tutorial、获奖论文和现场讨论。若把大量信息压缩成几条主线，可以看到五个值得持续关注的方向：评价模型成为独立研究对象，机器人走向全栈物理智能，3D/4D 与世界模型加速融合，互联网视频成为可扩展数据源，生成模型则开始重新审视潜空间和像素空间的取舍。图 1：CVPR 2026 趋势报告封面。报告由 LIMIT.Lab、cvpaper.challenge 与 Visual Geometry Group 团队整理。

一、CVPR 仍在快速扩张

报告给出的现场数据表明，CVPR 2026 共收到 16,092 篇投稿，相比上一年继续大幅增长；录用率约为 25.3%。注册人数超过 1.2 万，线下参会规模接近 9,000 人。规模增长带来了两个直接变化。第一，Workshop 和 Tutorial 的竞争也在加剧。它们不再只是主会之外的补充活动，而是新研究方向形成共同体、建立评价体系和凝聚研究议程的重要入口。第二，审稿与算力问题越来越突出。论文数量快速增长，评审规模同步扩张；与此同时，大模型实验所需的 GPU、数据和工程资源，也让工业界与学术界之间的资源差距更加明显。 CVPR 2026 还引入了 Findings Track，尝试接纳技术可靠、实验扎实，但创新程度未达到主会标准的工作。这反映出顶会开始正视重复投稿、评审容量和“增量但有价值”的研究成果。图 2：报告对比了 CVPR 2025 与 CVPR 2026 的投稿、录用和参会规模。

二、评价器成为一等研究对象

生成模型和多模态模型越来越强之后，传统指标开始跟不上模型能力。BLEU、CIDEr、CLIPScore 或单一的图像质量指标，很难完整衡量复杂视频、开放式生成和多模态推理结果。因此，CVPR 2026 出现了一个鲜明趋势：评价器本身正在从实验末尾的工具，变成需要训练、验证和审计的模型。

VLM-as-Judge、视频奖励模型和生成式奖励模型可以给出更接近人类偏好的评价，但也会引入新的问题：评价模型是否存在位置偏差？是否容易被提示词操纵？是否真正理解物理一致性？不同评价器之间能否复现？这意味着未来论文不能只报告“模型得分更高”，还需要回答两个问题：分数由谁给出，以及这个裁判是否可信。图 3：随着生成任务复杂度提升，评价器从附属工具升级为核心研究对象。

三、机器人研究进入全栈物理智能阶段

报告对多个机器人 Workshop 和 Tutorial 的总结高度一致：机器人学习已经不能只靠扩大 VLA 模型。一个可用的物理智能系统，需要数据、模型、传感器、仿真器、部署系统和可靠性机制共同扩展。数据既包括遥操作和真实机器人轨迹，也包括人类视频、模拟数据、生成轨迹以及机器人自主探索得到的数据。模型层面则从 VLA 进一步走向 World-Action Model。模型不仅要根据图像和语言预测动作，还要理解动作将如何改变环境。长时任务还需要层次化规划、记忆、可提示策略和失败恢复机制。报告特别强调触觉、力反馈和接触丰富操作。对于遮挡、易碎物体和灵巧手操作，仅靠 RGB 图像往往不足。物理智能的下一阶段，很可能不是单纯增加视觉模型参数，而是把多传感器、世界模型和真实部署闭环结合起来。图 4：机器人正在成为数据、模型、传感器、仿真、部署与可靠性共同驱动的全栈问题。

四、Bitter Lesson 之后，视觉研究如何选择抽象层

CVPR 2026 的 Bitter Lessons Workshop 讨论了一个根本问题：当规模化学习不断取得成功，传统计算机视觉中的深度、光流、分割、姿态和显式 3D 表示是否仍然必要？报告给出的结论并不是“手工结构已经无用”。更准确的说法是：研究应该从最终交付目标倒推表示方式。

如果目标是分类，二维表征可能足够；如果目标是机器人行动、可交互世界、CAD 资产、精确测量或科学发现，几何、物理和中层视觉仍然重要。只是它们的角色可能从固定的系统核心，转变为监督信号、接口、探针或调试工具。真正长期有效的方向，是建立闭环系统：感知环境、采取行动、收集新数据、验证结果，并在预训练之后继续学习。规模化很重要，但数据质量、物理可证伪性、低资源鲁棒性和可解释性同样不能被省略。图 5：Bitter Lessons Workshop 的核心分歧不是“要不要结构”，而是应该把结构放在哪个抽象层。

五、3D、4D 与世界模型正在汇合

报告中的获奖候选、Workshop 和专题论文都显示，研究重点正在从静态三维重建走向动态场景建模、世界模拟和物理推理。一个明显变化是，3D 不再只是独立的几何任务，而是成为生成、视频理解和机器人行动之间的中间语言。4D 方法进一步加入时间维度，要求模型保持对象身份、几何结构和运动的一致性。但研究界对“是否仍需要显式 3D 数据”并没有统一答案。一种观点认为，大规模视频模型能够从二维序列中隐式学习世界结构；另一种观点认为，若任务涉及精确动作、测量和物理交互，仅靠隐式视频表示仍然不够。这场争论短期内不会结束。更可能出现的路线，是显式几何与隐式世界模型共存：模型使用海量视频学习通用先验，再通过深度、点云、Gaussian Splatting 或物理约束获得可控制、可验证的空间结构。

六、生成模型开始“回到像素”

潜空间扩散依靠 VAE 压缩图像，大幅降低了训练和采样成本，但压缩过程也可能丢失边界、文字和高频细节。CVPR 2026 出现了一批重新研究像素空间扩散的工作。这并不是简单回到早期的原始像素建模，而是重新设计表示结构。常见做法包括：

将全局语义与局部纹理分开建模；
将补丁级结构与像素级细节分开处理；
将低频内容与高频信息解耦；
使用更轻量的局部模块降低像素空间计算成本。

这条路线尤其适合超分辨率、图像恢复、文本渲染和密集条件生成，因为这些任务非常依赖局部保真度。相应地，评价标准也会从“看起来真实”转向边界保持、条件对齐和细节一致性。

图 6：像素空间扩散的回归，本质上是对生成表示和结构分工的重新设计。

七、互联网视频正在变成通用训练数据

高质量 3D 数据、机器人轨迹和动作标注都非常昂贵，而互联网已经积累了近乎无限的视频。CVPR 2026 的多项工作尝试把这些无标注视频转换为可训练资源。典型流程是先进行镜头切分和关键帧筛选，再利用现有视觉基础模型恢复深度、相机运动、人体动作或三维结构，经过质量过滤后，生成用于空间理解、自动驾驶和机器人学习的训练数据。这使互联网视频的角色发生变化：它不再只是二维预训练语料，而是潜在的 3D 场景库、动作库和交互经验库。不过，视频到行动之间仍存在关键鸿沟。人类动作与机器人动作具有不同的身体结构、传感器和控制空间。因此，未来竞争重点不只是“谁拥有更多视频”，而是谁能更可靠地完成动作对齐、传感器对齐和结构化表示对齐。

图 7：无标注互联网视频可以通过自动化数据引擎转化为三维场景和下游训练数据。

八、给研究者的五点启示

第一，评价协议与模型同等重要。 在开放式生成和多模态任务中，可靠、可解释、可复现的评价体系本身就是研究贡献。 第二，机器人不能只追求端到端规模。 数据采集、记忆、触觉、仿真、部署和反馈闭环，将决定模型能否从演示走向真实环境。 第三，3D 与 4D 不会消失，但形态会改变。 它们将更多作为世界模型的结构约束、交互接口和验证工具存在。 第四，视频是下一代规模化数据源。 关键挑战从“有没有数据”转向“如何自动提炼可靠的空间与动作监督”。 第五，效率重新成为核心变量。 像素空间生成、轻量 VLA、边缘视觉和计算报告计划都说明，算力成本与部署效率正在进入主要评价维度。