CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

转载机器之心 CVPR 2026 今年于 6 月 3-7 日在美国科罗拉多州丹佛市举行，刚公布了今年的获奖论文。

CVPR 2026 共收到 16092 篇投稿，其中 4071 篇被大会接收（highlights 141 篇；poster 3352 篇），接收率 25.3%。今天在大会颁奖典礼上又公布了更多详细的数据分析。可以看到，今年的论文数量又创新高，比去年增长了 23.71%。

今年最佳论文奖项包括： * 1 篇最佳论文奖 * 2 篇最佳论文奖提名 * 1 篇最佳学生论文 * 1 篇最佳学生论文奖提名

最佳论文

获奖论文：Effciently Reconstructing Dynamic Scenes One D4RT at a Time * 机构：谷歌 DeepMind、伦敦大学学院、牛津大学 * 论文链接：https://arxiv.org/pdf/2512.08924

理解并重建视频中动态场景的复杂几何结构与运动，仍然是计算机视觉领域的一项艰巨挑战。本文提出了 D4RT，一种简单而强大的前馈模型，旨在高效解决这一问题。D4RT 采用统一的 Transformer 架构，从单个视频中联合推断深度、时空对应关系以及完整的相机参数。

其核心创新在于一种新颖的查询机制，该机制避免了密集逐帧解码所带来的高昂计算开销，也无需维护多个面向不同任务的专用解码器。我们提出的解码接口，使模型能够独立且灵活地查询任意时空点的三维位置。因此，D4RT 成为一种轻量化且高度可扩展的方法，能够实现极其高效的训练与推理。实验表明，该方法在广泛的 4D 重建任务中超越了以往方法，达到了新的最先进水平。

最佳论文奖提名（2 篇）

获奖论文 1：SAM 3D: 3Dfy Anything in Images * 机构：Meta 超级智能实验室 * 链接：https://arxiv.org/abs/2511.16624

我们提出了 SAM 3D，一种用于视觉引导三维物体重建的生成式模型，能够从单张图像中预测物体的几何结构、纹理和布局。SAM 3D 尤其擅长处理自然图像场景，在这类场景中，遮挡和复杂背景十分常见，来自上下文的视觉识别线索也发挥着更重要的作用。为实现这一目标，我们构建了一个结合人工与模型参与的闭环标注流程，用于标注物体形状、纹理和姿态，从而以前所未有的规模获得视觉引导的三维重建数据。基于这些数据，我们采用现代化的多阶段训练框架，将合成数据预训练与真实世界对齐相结合，突破了三维领域长期存在的“数据壁垒”。实验结果表明，相比近期方法，SAM 3D 取得了显著提升；在真实世界物体与场景的人类偏好测试中，其胜率至少达到 5:1。我们将开源代码和模型权重，发布在线演示系统，并提供一个新的、具有挑战性的野外三维物体重建基准。

获奖论文 2:NitroGen: An Open Foundation Model for Generalist Gaming Agents * 机构：英伟达、斯坦福大学、加州理工学院、芝加哥大学和德克萨斯大学奥斯汀分校 * 链接：https://arxiv.org/abs/2601.02427

我们提出了 NitroGen，一种面向通用游戏智能体的视觉-动作基础模型。该模型基于超过 1,000 款游戏、总计 40,000 小时的游戏视频进行训练。我们引入了三个关键要素： 1）一个互联网规模的视频-动作数据集，通过从公开游戏视频中自动提取玩家动作构建而成； 2）一个多游戏基准环境，用于评估跨游戏泛化能力； 3）一个统一的视觉-动作模型，通过大规模行为克隆进行训练。 NitroGen 在多种游戏场景中展现出很强的能力，包括三维动作游戏中的战斗遭遇、二维平台游戏中的高精度控制，以及程序生成世界中的探索任务。该模型还能有效迁移到未见过的游戏中，相比从零训练的模型，在任务成功率上最高取得 52% 的相对提升。我们将发布数据集、评测套件和模型权重，以推动通用具身智能体研究的发展。最佳学生论文

获奖论文：Native and Compact Structured Latents for 3D Generation * 机构：清华大学、微软研究院、USTC、微软 AI * 论文链接：https://cvpr.thecvf.com/virtual/2026/poster/37074

近年来，三维生成建模取得了显著进展，生成结果的真实感不断提升。然而，该领域仍受到现有表示方式的限制，因为这些表示难以刻画具有复杂拓扑结构和精细外观的三维资产。本文提出了一种从原生三维数据中学习结构化潜在表示的方法，以应对这一挑战。其核心是一种新的稀疏体素结构，称为 O-Voxel，即一种全方位体素表示，能够同时编码几何结构和外观信息。O-Voxel 可以稳健地建模任意拓扑结构，包括开放曲面、非流形结构以及完全封闭的表面；同时，它还能够捕获纹理颜色之外的全面表面属性，例如基于物理渲染的材质参数。基于 O-Voxel，我们设计了 Sparse Compression VAE，该模型具有较高的空间压缩率，并能够形成紧凑的潜在空间。我们进一步训练了包含 40 亿参数的大规模流匹配模型，用于三维生成，并使用了多样化的公开三维资产数据集。尽管模型规模很大，其推理过程仍然保持高效。与此同时，我们生成资产的几何质量和材质质量都显著超过现有模型。我们认为，该方法为三维生成建模带来了重要进展。最佳学生论文奖提名

获奖论文：ChordEdit: One-Step Low-Energy Transport for Image Editing * 机构：广东工业大学、惠州学院、深圳大学、北京大学 * 论文链接：https://arxiv.org/pdf/2602.19083

一步式文本生成图像（Text-to-Image, T2I）模型的出现带来了前所未有的图像合成速度。然而，这类模型在文本引导图像编辑中的应用仍然受到严重限制，因为将现有的免训练编辑方法强行压缩到单步推理通常会失败。这种失败主要表现为：编辑对象发生严重形变，未编辑区域的一致性也显著丧失。其根源在于，对模型结构化场进行朴素向量运算会产生高能量且不稳定的轨迹。为了解决这一问题，我们提出了 ChordEdit，一种与模型无关、无需训练、无需反演的方法，可实现高保真的一步图像编辑。我们将编辑过程重新表述为：在源文本提示和目标文本提示所定义的源分布与目标分布之间的一个传输问题。借助动态最优传输理论，我们推导出一种原理清晰、低能量的控制策略。该策略能够生成一个经过平滑和方差抑制的编辑场，这种编辑场天然更加稳定，从而可以通过单次、大步长积分完成遍历。基于理论支撑并经过实验验证的方法，ChordEdit 能够实现快速、轻量且精确的编辑，最终在这类具有挑战性的一步模型上实现真正的实时图像编辑。

Longuet-Higgins Prize（朗格 - 希金斯奖） Longuet-Higgins Prize 是 CVPR 上颁发的「时间检验奖」，表彰十年前发表且对计算机视觉领域产生深远影响的 CVPR 论文，以理论化学家与认知科学家 H. Christopher Longuet-Higgins 命名。本年度共有两篇论文获奖。其中一篇是 ResNet 的原始论文《Deep Residual Learning for Image Recognition》，由何恺明、张祥雨、任少卿和孙剑于 2015 年撰写，2016 年发表于 CVPR。