DeFM：从深度信息中学习机器人学基础表征 (DeFM: Learning Foundation Representations from Depth for Robotics) - 专知论文

会员服务 ·

0

深度信息 · 机器人 · 机器人学 · 传感 · 模态 ·

DeFM: Learning Foundation Representations from Depth for Robotics

翻译：DeFM：从深度信息中学习机器人学基础表征

Manthan Patel,Jonas Frey,Mayank Mittal,Fan Yang,Alexander Hansson,Amir Bar,Cesar Cadena,Marco Hutter

from arxiv, Under review, 19 pages, 15 Figures, 9 Tables

Depth sensors are widely deployed across robotic platforms, and advances in fast, high-fidelity depth simulation have enabled robotic policies trained on depth observations to achieve robust sim-to-real transfer for a wide range of tasks. Despite this, representation learning for depth modality remains underexplored compared to RGB, where large-scale foundation models now define the state of the art. To address this gap, we present DeFM, a self-supervised foundation model trained entirely on depth images for robotic applications. Using a DINO-style self-distillation objective on a curated dataset of 60M depth images, DeFM learns geometric and semantic representations that generalize to diverse environments, tasks, and sensors. To retain metric awareness across multiple scales, we introduce a novel input normalization strategy. We further distill DeFM into compact models suitable for resource-constrained robotic systems. When evaluated on depth-based classification, segmentation, navigation, locomotion, and manipulation benchmarks, DeFM achieves state-of-the-art performance and demonstrates strong generalization from simulation to real-world environments. We release all our pretrained models, which can be adopted off-the-shelf for depth-based robotic learning without task-specific fine-tuning. Webpage: https://de-fm.github.io/

翻译：深度传感器已在各类机器人平台上广泛应用，快速高保真深度模拟技术的进步使得基于深度观测训练的机器人策略能够在广泛任务中实现鲁棒的仿真到现实迁移。尽管如此，与已由大规模基础模型定义技术前沿的RGB模态相比，深度模态的表征学习仍处于探索不足的状态。为填补这一空白，我们提出DeFM——一个完全基于深度图像训练的自监督基础模型，专为机器人应用设计。通过在6000万张深度图像组成的精选数据集上采用DINO风格的自蒸馏目标，DeFM能够学习可泛化至不同环境、任务和传感器的几何与语义表征。为在多尺度下保持度量感知能力，我们提出了一种新颖的输入归一化策略。我们进一步将DeFM蒸馏为适用于资源受限机器人系统的紧凑模型。在基于深度信息的分类、分割、导航、运动与操作基准测试中，DeFM均取得最先进的性能，并展现出从仿真环境到现实场景的强泛化能力。我们开源所有预训练模型，这些模型可直接用于基于深度信息的机器人学习而无需任务特定微调。项目主页：https://de-fm.github.io/

0

相关内容

深度信息

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

专知会员服务

33+阅读 · 2023年12月26日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【CMU博士论文】从强化学习到机器人学习：利用先前数据和共享评估，

【CMU博士论文】从强化学习到机器人学习：利用先前数据和共享评估，

专知会员服务

46+阅读 · 2023年8月19日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知会员服务

54+阅读 · 2023年4月4日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知会员服务

36+阅读 · 2022年8月16日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知会员服务

113+阅读 · 2022年7月29日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

专知会员服务

59+阅读 · 2022年4月27日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

Arxiv

0+阅读 · 2月13日

Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

Arxiv

0+阅读 · 2月11日

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Arxiv

0+阅读 · 2月9日

CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning

Arxiv

0+阅读 · 2月4日

Depth Completion in Unseen Field Robotics Environments Using Extremely Sparse Depth Measurements

Arxiv

0+阅读 · 2月3日

RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots

Arxiv

0+阅读 · 2月2日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

Depth to Anatomy: Learning Internal Organ Locations from Surface Depth Images

Arxiv

0+阅读 · 1月26日

Masked Depth Modeling for Spatial Perception

Arxiv

0+阅读 · 1月25日

VIP会员

文章信息

相关主题

相关VIP内容

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

专知会员服务

33+阅读 · 2023年12月26日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

【CMU博士论文】从强化学习到机器人学习：利用先前数据和共享评估，

【CMU博士论文】从强化学习到机器人学习：利用先前数据和共享评估，

专知会员服务

46+阅读 · 2023年8月19日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知会员服务

54+阅读 · 2023年4月4日

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

301页pdf伯克利博士论文《可扩展机器人学习》，系统全面阐述机器人技术

专知会员服务

36+阅读 · 2022年8月16日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知会员服务

113+阅读 · 2022年7月29日

结合进化算法的深度强化学习方法研究综述

结合进化算法的深度强化学习方法研究综述

专知会员服务

81+阅读 · 2022年7月16日

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

196页博士论文《在深度学习系统中利用领域知识》美国佛蒙特大学，以天体物理学、生物医学、金融领域的应用为例

专知会员服务

59+阅读 · 2022年4月27日

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

【干货书】《Transformers 机器学习:深度探究》，Transformers for Machine Learning A Deep Dive

专知会员服务

473+阅读 · 2022年4月21日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】基于深度学习的机器人感知与认知，638页pdf

【干货书】基于深度学习的机器人感知与认知，638页pdf

专知

19+阅读 · 2022年7月30日

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

如何在深度学习嵌入知识？美国佛蒙特大学196页博士论文《在深度学习系统中利用领域知识》讲解

专知

32+阅读 · 2022年4月28日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

【伯克利Pieter Abbeel教授报告@CMU】元学习与深度强化学习的机器人应用，84页ppt

专知

13+阅读 · 2019年10月12日

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

DeepMind综述深度强化学习中的快与慢，智能体应该像人一样学习

机器之心

20+阅读 · 2019年5月3日

深度强化学习简介

深度强化学习简介

专知

30+阅读 · 2018年12月3日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

相关论文

MeshMimic: Geometry-Aware Humanoid Motion Learning through 3D Scene Reconstruction

Arxiv

0+阅读 · 2月17日

SafeFlowMPC: Predictive and Safe Trajectory Planning for Robot Manipulators with Learning-based Policies

Arxiv

0+阅读 · 2月13日

Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

Arxiv

0+阅读 · 2月11日

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Arxiv

0+阅读 · 2月9日

CyIN: Cyclic Informative Latent Space for Bridging Complete and Incomplete Multimodal Learning

Arxiv

0+阅读 · 2月4日

Depth Completion in Unseen Field Robotics Environments Using Extremely Sparse Depth Measurements

Arxiv

0+阅读 · 2月3日

RAPT: Model-Predictive Out-of-Distribution Detection and Failure Diagnosis for Sim-to-Real Humanoid Robots

Arxiv

0+阅读 · 2月2日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

Depth to Anatomy: Learning Internal Organ Locations from Surface Depth Images

Arxiv

0+阅读 · 1月26日

Masked Depth Modeling for Spatial Perception

Arxiv

0+阅读 · 1月25日

相关基金

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于极限学习单元的多生物特征图像深度学习建模与识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向多源遥感图像的深度学习技术与系统研究

国家自然科学基金

17+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员