三维动态感知操作：赋予操作策略三维前瞻能力 (3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight) - 专知论文

会员服务 ·

0

操作 · 动态感知 · 策略学习 · 鲁棒 · 集成 ·

3D Dynamics-Aware Manipulation: Endowing Manipulation Policies with 3D Foresight

翻译：三维动态感知操作：赋予操作策略三维前瞻能力

Yuxin He,Ruihao Zhang,Xianzu Wu,Zhiyuan Zhang,Cheng Ding,Qiang Nie

from arxiv, ICRA 2026

The incorporation of world modeling into manipulation policy learning has pushed the boundary of manipulation performance. However, existing efforts simply model the 2D visual dynamics, which is insufficient for robust manipulation when target tasks involve prominent depth-wise movement. To address this, we present a 3D dynamics-aware manipulation framework that seamlessly integrates 3D world modeling and policy learning. Three self-supervised learning tasks (current depth estimation, future RGB-D prediction, 3D flow prediction) are introduced within our framework, which complement each other and endow the policy model with 3D foresight. Extensive experiments on simulation and the real world show that 3D foresight can greatly boost the performance of manipulation policies without sacrificing inference speed. Code is available at https://github.com/Stardust-hyx/3D-Foresight.

翻译：将世界模型融入操作策略学习已显著提升了操作性能的边界。然而，现有方法仅对二维视觉动态进行建模，当目标任务涉及显著的深度方向运动时，这种建模方式不足以实现鲁棒操作。为解决此问题，我们提出了一种三维动态感知操作框架，该框架无缝集成了三维世界建模与策略学习。我们在框架中引入了三项自监督学习任务（当前深度估计、未来RGB-D预测、三维流预测），这些任务相互补充，使策略模型具备三维前瞻能力。在仿真和真实环境中进行的大量实验表明，三维前瞻能力能够在不牺牲推理速度的前提下，极大提升操作策略的性能。代码发布于 https://github.com/Stardust-hyx/3D-Foresight。

0

相关内容

《提升态势感知对指挥控制系统决策效能的影响分析》

《提升态势感知对指挥控制系统决策效能的影响分析》

专知会员服务

31+阅读 · 1月27日

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

43+阅读 · 2025年9月23日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

44+阅读 · 2025年3月20日

《用于军事行动实时三维场景分析的人工智能无人智能体》

《用于军事行动实时三维场景分析的人工智能无人智能体》

专知会员服务

66+阅读 · 2024年8月13日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

三维视觉前沿进展

专知会员服务

67+阅读 · 2021年5月21日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

36+阅读 · 2023年4月11日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

18+阅读 · 2022年7月12日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning

Arxiv

0+阅读 · 2月16日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月12日

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Arxiv

0+阅读 · 2月9日

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

Arxiv

0+阅读 · 2月7日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 1月31日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

EquiContact: A Hierarchical SE(3) Vision-to-Force Equivariant Policy for Spatially Generalizable Contact-rich Tasks

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

相关VIP内容

《提升态势感知对指挥控制系统决策效能的影响分析》

《提升态势感知对指挥控制系统决策效能的影响分析》

专知会员服务

31+阅读 · 1月27日

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

《具备集体态势感知能力的深度强化学习智能体在超视距空战中的应用研究》最新文献

专知会员服务

43+阅读 · 2025年9月23日

三维与四维世界建模综述

三维与四维世界建模综述

专知会员服务

29+阅读 · 2025年9月12日

从二维到三维认知：通用世界模型简要综述

从二维到三维认知：通用世界模型简要综述

专知会员服务

29+阅读 · 2025年6月26日

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

多智能体协同决策研究全景透视：应用场景、研究方法、挑战与未来展望

专知会员服务

44+阅读 · 2025年3月20日

《用于军事行动实时三维场景分析的人工智能无人智能体》

《用于军事行动实时三维场景分析的人工智能无人智能体》

专知会员服务

66+阅读 · 2024年8月13日

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

深度学习如何可信？港理工等最新《2D和3D深度学习模型对抗性攻击的鲁棒性和安全性》综述，涵盖170篇论文

专知会员服务

28+阅读 · 2023年10月3日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

三维视觉前沿进展

专知会员服务

67+阅读 · 2021年5月21日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知会员服务

80+阅读 · 2020年3月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

36+阅读 · 2023年4月11日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

数据驱动的态势认知技术及发展思考

数据驱动的态势认知技术及发展思考

专知

18+阅读 · 2022年7月12日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

三维重建 3D reconstruction 有哪些实用算法？

三维重建 3D reconstruction 有哪些实用算法？

极市平台

13+阅读 · 2020年2月23日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

计算机视觉方向简介 | 三维重建技术概述

计算机视觉方向简介 | 三维重建技术概述

计算机视觉life

26+阅读 · 2019年6月13日

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

三维感知与三维数据分析最新进展 - 3D传感&人工智能前沿科技论坛

AI科技评论

10+阅读 · 2019年2月2日

网络安全态势感知

网络安全态势感知

计算机与网络安全

26+阅读 · 2018年10月14日

相关论文

Seeing the Bigger Picture: 3D Latent Mapping for Mobile Manipulation Policy Learning

Arxiv

0+阅读 · 2月16日

3D-Aware Implicit Motion Control for View-Adaptive Human Video Generation

Arxiv

0+阅读 · 2月14日

Scaling World Model for Hierarchical Manipulation Policies

Arxiv

0+阅读 · 2月12日

Simultaneous Tactile-Visual Perception for Learning Multimodal Robot Manipulation

Arxiv

0+阅读 · 2月9日

ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

Arxiv

0+阅读 · 2月7日

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Arxiv

0+阅读 · 2月5日

Geometry-aware 4D Video Generation for Robot Manipulation

Arxiv

0+阅读 · 2月4日

CLAMP: Contrastive Learning for 3D Multi-View Action-Conditioned Robotic Manipulation Pretraining

Arxiv

0+阅读 · 1月31日

Learning Geometrically-Grounded 3D Visual Representations for View-Generalizable Robotic Manipulation

Arxiv

0+阅读 · 1月30日

EquiContact: A Hierarchical SE(3) Vision-to-Force Equivariant Policy for Spatially Generalizable Contact-rich Tasks

Arxiv

0+阅读 · 1月30日

相关基金

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

1+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

51+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员