Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation - 专知论文

会员服务 ·

0

蒸馏 · 前馈 · 三维感知 · 溅射 · 重建 ·

Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation

翻译：溅射与蒸馏：通过前馈三维重建增强教师模型以实现三维感知蒸馏

David Shavin,Sagie Benaim

from arxiv, Accepted to ICLR 2026

Vision Foundation Models (VFMs) have achieved remarkable success when applied to various downstream 2D tasks. Despite their effectiveness, they often exhibit a critical lack of 3D awareness. To this end, we introduce Splat and Distill, a framework that instills robust 3D awareness into 2D VFMs by augmenting the teacher model with a fast, feed-forward 3D reconstruction pipeline. Given 2D features produced by a teacher model, our method first lifts these features into an explicit 3D Gaussian representation, in a feedforward manner. These 3D features are then ``splatted" onto novel viewpoints, producing a set of novel 2D feature maps used to supervise the student model, ``distilling" geometrically grounded knowledge. By replacing slow per-scene optimization of prior work with our feed-forward lifting approach, our framework avoids feature-averaging artifacts, creating a dynamic learning process where the teacher's consistency improves alongside that of the student. We conduct a comprehensive evaluation on a suite of downstream tasks, including monocular depth estimation, surface normal estimation, multi-view correspondence, and semantic segmentation. Our method significantly outperforms prior works, not only achieving substantial gains in 3D awareness but also enhancing the underlying semantic richness of 2D features. Project page is available at https://davidshavin4.github.io/Splat-and-Distill/

翻译：视觉基础模型（VFMs）在应用于各种下游二维任务时取得了显著成功。尽管其效果显著，但这些模型通常表现出严重缺乏三维感知能力的问题。为此，我们提出了溅射与蒸馏框架，该框架通过为教师模型集成一个快速的前馈三维重建流程，将鲁棒的三维感知能力注入二维视觉基础模型中。给定教师模型生成的二维特征，我们的方法首先以前馈方式将这些特征提升为显式的三维高斯表示。随后，这些三维特征被“溅射”到新视角上，生成一组用于监督学生模型的新二维特征图，从而“蒸馏”出几何基础的知识。通过用我们的前馈提升方法取代先前工作中缓慢的逐场景优化，我们的框架避免了特征平均伪影，创建了一个动态学习过程，使得教师模型的一致性随着学生模型的改进而同步提升。我们在包括单目深度估计、表面法线估计、多视角对应性以及语义分割在内的一系列下游任务上进行了全面评估。我们的方法显著优于先前工作，不仅在三维感知方面实现了实质性提升，还增强了二维特征底层的语义丰富性。项目页面详见 https://davidshavin4.github.io/Splat-and-Distill/

0

相关内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

12+阅读 · 4月17日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

17+阅读 · 2025年8月14日

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

专知会员服务

46+阅读 · 2025年4月26日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

专知会员服务

21+阅读 · 2024年3月8日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向真实细观界面力学行为仿真的沥青混合料多精度三维重构及数值建模

国家自然科学基金

0+阅读 · 2015年12月31日

液滴形成中的渗透效应-以微流控双水相体系为模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

Arxiv

0+阅读 · 3月12日

VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale

Arxiv

0+阅读 · 2月26日

3D Scene Rendering with Multimodal Gaussian Splatting

Arxiv

0+阅读 · 2月19日

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

Arxiv

0+阅读 · 2月12日

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Arxiv

0+阅读 · 2月12日

Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation

Arxiv

0+阅读 · 2月5日

Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model

Arxiv

0+阅读 · 2月2日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

Arxiv

0+阅读 · 2月2日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

2+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

2+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

7+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 6月24日

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

8+阅读 · 6月23日

相关VIP内容

前馈式三维场景建模

前馈式三维场景建模

专知会员服务

12+阅读 · 4月17日

三维高斯泼溅应用综述：分割、编辑与生成

三维高斯泼溅应用综述：分割、编辑与生成

专知会员服务

17+阅读 · 2025年8月14日

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

大型语言模型的知识蒸馏与数据集蒸馏：新兴趋势、挑战与未来方向

专知会员服务

46+阅读 · 2025年4月26日

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

LargeAD：面向自动驾驶的大规模跨传感器数据预训练

专知会员服务

17+阅读 · 2025年1月8日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

【CVPR2024】PromptKD: 无监督提示蒸馏用于视觉-语言模型

专知会员服务

21+阅读 · 2024年3月8日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

【综述】面向视觉智能的知识蒸馏和Student-Teacher方法，附37页pdf下载

专知会员服务

68+阅读 · 2020年4月16日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知会员服务

56+阅读 · 2020年3月12日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

模型压缩 | 知识蒸馏经典解读

模型压缩 | 知识蒸馏经典解读

AINLP

11+阅读 · 2020年5月31日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知

41+阅读 · 2020年3月25日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

AI新视野 | 数据蒸馏Dataset Distillation

AI新视野 | 数据蒸馏Dataset Distillation

人工智能前沿讲习班

31+阅读 · 2019年6月14日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

公开课|腾讯优图高级研究员张润泽：基于图像的大规模三维重建

计算机视觉life

19+阅读 · 2018年12月27日

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

线上 | 景驰科技软件工程师陈国斌：基于知识蒸馏的模型压缩与加速

机器学习研究会

11+阅读 · 2018年1月16日

相关论文

VolSplat: Rethinking Feed-Forward 3D Gaussian Splatting with Voxel-Aligned Prediction

Arxiv

0+阅读 · 3月12日

VGG-T$^3$: Offline Feed-Forward 3D Reconstruction at Scale

Arxiv

0+阅读 · 2月26日

3D Scene Rendering with Multimodal Gaussian Splatting

Arxiv

0+阅读 · 2月19日

Pedagogically-Inspired Data Synthesis for Language Model Knowledge Distillation

Arxiv

0+阅读 · 2月12日

Zooming without Zooming: Region-to-Image Distillation for Fine-Grained Multimodal Perception

Arxiv

0+阅读 · 2月12日

Splat and Distill: Augmenting Teachers with Feed-Forward 3D Reconstruction For 3D-Aware Distillation

Arxiv

0+阅读 · 2月5日

Teacher-Guided Student Self-Knowledge Distillation Using Diffusion Model

Arxiv

0+阅读 · 2月2日

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

Arxiv

0+阅读 · 2月2日

Feat2GS: Probing Visual Foundation Models with Gaussian Splatting

Arxiv

0+阅读 · 2月2日

Split&Splat: Zero-Shot Panoptic Segmentation via Explicit Instance Modeling and 3D Gaussian Splatting

Arxiv

0+阅读 · 2月1日

相关基金

基于DASH的交互式三维视频系统建模

国家自然科学基金

1+阅读 · 2015年12月31日

基于压缩感知理论的图像采样、编码和重建研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于散射点密度信息熵的层析SAR建筑三维重建新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉媒体的结构感知处理与分析模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

面向真实细观界面力学行为仿真的沥青混合料多精度三维重构及数值建模

国家自然科学基金

0+阅读 · 2015年12月31日

液滴形成中的渗透效应-以微流控双水相体系为模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员