Lightweight 3D Feature Pretraining by Bayesian Inversion of 2D Foundation Models - 专知论文

会员服务 ·

0

3D · MoDELS · 讲稿 · 潜在 · 表示 ·

Lightweight 3D Feature Pretraining by Bayesian Inversion of 2D Foundation Models

翻译：暂无翻译

Marwane Hariat,Gianni Franchi,David Filliat,Antoine Manzanera

We present Casper3D, a lightweight probabilistic framework for converting noisy multi-view 2D foundation-model embeddings into a latent 3D semantic representation. We model view-level semantic features as noisy observations of an underlying 3D semantic state and infer this state with a set-based variational model that incorporates relative pose during multi-view reasoning. Casper3D is trained by predicting held-out semantic observations from novel viewpoints, while remaining aligned with visual and text semantic spaces for open-vocabulary 3D understanding. The framework is backbone-agnostic and applies to both language-aligned and self-supervised embeddings. Experiments show that Casper3D produces more stable 3D semantics than simple multi-view pooling, especially in ambiguous and noisy settings.

翻译：暂无翻译

0

相关内容

3D是英文“Three Dimensions”的简称，中文是指三维、三个维度、三个坐标，即有长、有宽、有高，换句话说，就是立体的，是相对于只有长和宽的平面（2D）而言。

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

专知会员服务

9+阅读 · 2025年11月13日

ICCV 2021 | 半监督二维人体姿态估计中的模型坍塌问题研究（代码已开源）

专知会员服务

12+阅读 · 2021年10月1日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【电子书】《计算机视觉中的多视图几何(第2版)》英文版，Multiple View Geometry in Computer Vision，附673页PDF

【电子书】《计算机视觉中的多视图几何(第2版)》英文版，Multiple View Geometry in Computer Vision，附673页PDF

专知会员服务

132+阅读 · 2020年3月22日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

专知会员服务

12+阅读 · 2020年1月13日

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

专知会员服务

29+阅读 · 2019年10月31日

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

专知会员服务

10+阅读 · 2019年10月30日

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

泡泡机器人SLAM

22+阅读 · 2019年9月7日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

泡泡机器人SLAM

17+阅读 · 2019年7月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于叠层成像的三维信息加密系统与级联光学攻击模型的研究

国家自然科学基金

0+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

弱光非线性结构光照明超分辨成像研究

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views

Arxiv

0+阅读 · 6月22日

A Linear Fractional Transformation Model and Calibration Method for Light Field Camera

Arxiv

0+阅读 · 6月22日

Homographic Navigation: Geometry-Driven Camera Guidance for Deterministic Planar Capture

Arxiv

0+阅读 · 6月22日

SenseExpo: Spatial Exploration and Navigation via Scene Estimation from Expeditious Predictive Operators

Arxiv

0+阅读 · 6月20日

Enlight: Fast Low-Light Image Enhancement via Multi-Objective Optimization and Shadow-Aware Refinement

Arxiv

0+阅读 · 6月19日

3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning

Arxiv

0+阅读 · 6月17日

Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

Arxiv

0+阅读 · 6月17日

Extended feature allocation models

Arxiv

0+阅读 · 6月16日

3D Scene Graphs: Open Challenges and Future Directions

Arxiv

0+阅读 · 6月15日

Feature-Optimized Vision for Adaptive 3D Scene Reconstruction

Arxiv

0+阅读 · 5月29日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

NeurIPS 2025｜从层次化掩码的视角统一并增强 Graph Transformer

专知会员服务

9+阅读 · 2025年11月13日

ICCV 2021 | 半监督二维人体姿态估计中的模型坍塌问题研究（代码已开源）

专知会员服务

12+阅读 · 2021年10月1日

图像增强领域大突破！以1.66ms的速度处理4K图像，港理工提出图像自适应的3DLUT

专知会员服务

17+阅读 · 2020年9月25日

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

【三维物体和手部姿态估计】综述论文最新进展，Recent Advances in 3D Object and Hand Pose Estimation

专知会员服务

21+阅读 · 2020年6月13日

【电子书】《计算机视觉中的多视图几何(第2版)》英文版，Multiple View Geometry in Computer Vision，附673页PDF

【电子书】《计算机视觉中的多视图几何(第2版)》英文版，Multiple View Geometry in Computer Vision，附673页PDF

专知会员服务

132+阅读 · 2020年3月22日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

【论文】评估可扩展贝叶斯深度学习强大的计算机视觉的方法（Evaluating Scalable Bayesian Deep LearningMethods for Robust Computer Vision）

专知会员服务

12+阅读 · 2020年1月13日

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

【ICCV 2019 Tutorial】Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data（整体3D重建：学习从感官数据重建整体3D结构），宾夕法尼亚州立大学 Zihan Zhou，西蒙弗雷泽大学计算机科学系 Yasutaka Furukawa，UCB 马毅

专知会员服务

29+阅读 · 2019年10月31日

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision 【Michael S. Brown IEEE】韩国 ICCV 2019

专知会员服务

10+阅读 · 2019年10月30日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

【泡泡图灵智库】体积实例感知语义建图与3D对象发现

泡泡机器人SLAM

22+阅读 · 2019年9月7日

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

【泡泡图灵智库】基于RGB-D相机多视图深度学习的一致语义建图

泡泡机器人SLAM

12+阅读 · 2019年9月3日

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

【泡泡图灵智库】基于视觉深度估计的伪激光雷达: 从2D图像到自动驾驶3D目标检测（IROS）

泡泡机器人SLAM

17+阅读 · 2019年7月8日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

使用双目相机进行三维重建第二部分：姿态估计

使用双目相机进行三维重建第二部分：姿态估计

AI研习社

12+阅读 · 2019年5月7日

目前最好的开源人脸3D重建与密集对齐算法

目前最好的开源人脸3D重建与密集对齐算法

计算机视觉life

17+阅读 · 2019年4月24日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

【论文推荐】最新八篇主题模型相关论文—在线光谱学习、PAM变分推断、章节推荐、多芯片系统、文本分析、动态主题模型

专知

12+阅读 · 2018年5月6日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

相关论文

Dense Reward for Multi-View 3D Reasoning with Global Maps and Local Views

Arxiv

0+阅读 · 6月22日

A Linear Fractional Transformation Model and Calibration Method for Light Field Camera

Arxiv

0+阅读 · 6月22日

Homographic Navigation: Geometry-Driven Camera Guidance for Deterministic Planar Capture

Arxiv

0+阅读 · 6月22日

SenseExpo: Spatial Exploration and Navigation via Scene Estimation from Expeditious Predictive Operators

Arxiv

0+阅读 · 6月20日

Enlight: Fast Low-Light Image Enhancement via Multi-Objective Optimization and Shadow-Aware Refinement

Arxiv

0+阅读 · 6月19日

3D-DLP: Self-Supervised 3D Object-Centric Scene Representation Learning

Arxiv

0+阅读 · 6月17日

Zero-Shot Long-Horizon Dexterous Manipulation via Multi-View 3D-Grounded VLM Reasoning

Arxiv

0+阅读 · 6月17日

Extended feature allocation models

Arxiv

0+阅读 · 6月16日

3D Scene Graphs: Open Challenges and Future Directions

Arxiv

0+阅读 · 6月15日

Feature-Optimized Vision for Adaptive 3D Scene Reconstruction

Arxiv

0+阅读 · 5月29日

相关基金

基于分层与或图模型的光学遥感图像场景理解方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于结构单元探测与修复的车载LiDAR数据建筑物立面模型三维重建研究

国家自然科学基金

0+阅读 · 2015年12月31日

高保真大景深实时3D显微成像研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于叠层成像的三维信息加密系统与级联光学攻击模型的研究

国家自然科学基金

0+阅读 · 2015年12月31日

地面激光雷达与设计数据正逆向结合的建筑物三维重建技术

国家自然科学基金

0+阅读 · 2015年12月31日

基于人类3D视觉感应的2D到3D视频转换关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

弱光非线性结构光照明超分辨成像研究

国家自然科学基金

0+阅读 · 2015年12月31日

多约束协同的彩色夜视影像亚像素超分辨率重建

国家自然科学基金

1+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂场景点线光流三维重建模型的建立及鲁棒性分析

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员