SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation - 专知论文

会员服务 ·

0

鲁棒 · 操作 · 机器人操作 · 交互 · 几何特征 ·

SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation

翻译：SpatialActor：探索解耦空间表示以实现鲁棒机器人操作

Hao Shi,Bin Xie,Yingfei Liu,Yang Yue,Tiancai Wang,Haoqiang Fan,Xiangyu Zhang,Gao Huang

from arxiv, AAAI 2026 Oral | Project Page: https://shihao1895.github.io/SpatialActor

Robotic manipulation requires precise spatial understanding to interact with objects in the real world. Point-based methods suffer from sparse sampling, leading to the loss of fine-grained semantics. Image-based methods typically feed RGB and depth into 2D backbones pre-trained on 3D auxiliary tasks, but their entangled semantics and geometry are sensitive to inherent depth noise in real-world that disrupts semantic understanding. Moreover, these methods focus on high-level geometry while overlooking low-level spatial cues essential for precise interaction. We propose SpatialActor, a disentangled framework for robust robotic manipulation that explicitly decouples semantics and geometry. The Semantic-guided Geometric Module adaptively fuses two complementary geometry from noisy depth and semantic-guided expert priors. Also, a Spatial Transformer leverages low-level spatial cues for accurate 2D-3D mapping and enables interaction among spatial features. We evaluate SpatialActor on multiple simulation and real-world scenarios across 50+ tasks. It achieves state-of-the-art performance with 87.4% on RLBench and improves by 13.9% to 19.4% under varying noisy conditions, showing strong robustness. Moreover, it significantly enhances few-shot generalization to new tasks and maintains robustness under various spatial perturbations. Project Page: https://shihao1895.github.io/SpatialActor

翻译：机器人操作需要精确的空间理解以与现实世界中的物体交互。基于点云的方法因稀疏采样而存在细粒度语义信息丢失的问题。基于图像的方法通常将RGB和深度信息输入到经过3D辅助任务预训练的二维骨干网络中，但其纠缠的语义与几何特征对现实场景中固有的深度噪声极为敏感，这会破坏语义理解。此外，这些方法侧重于高层几何特征，却忽视了精确交互所必需的低层空间线索。我们提出SpatialActor，一个用于鲁棒机器人操作的解耦框架，能够显式地分离语义与几何信息。语义引导几何模块自适应地融合来自含噪深度与语义引导专家先验的两种互补几何特征。同时，空间变换器利用低层空间线索实现精确的2D-3D映射，并促进空间特征间的交互。我们在超过50个任务的多种仿真和现实场景中对SpatialActor进行评估。该方法在RLBench上达到了87.4%的最先进性能，并在不同噪声条件下实现了13.9%至19.4%的性能提升，展现出强大的鲁棒性。此外，该方法显著增强了对新任务的少样本泛化能力，并在各种空间扰动下保持鲁棒性。项目页面：https://shihao1895.github.io/SpatialActor

0

相关内容

稀疏点云感知的表示学习

稀疏点云感知的表示学习

专知会员服务

9+阅读 · 2月9日

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

专知会员服务

8+阅读 · 2025年11月13日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《鲁棒高效边缘人工智能：赋能边缘设备智能的新原理与框架》154页

《鲁棒高效边缘人工智能：赋能边缘设备智能的新原理与框架》154页

专知会员服务

32+阅读 · 2025年4月11日

面向空间机器人辅助操作的任务规划方法研究

面向空间机器人辅助操作的任务规划方法研究

专知会员服务

22+阅读 · 2025年2月10日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

IROS2020|机器人自主探索与建图算法，代码已开源！

IROS2020|机器人自主探索与建图算法，代码已开源！

中国图象图形学报

34+阅读 · 2020年9月8日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

干货 | 可解释的机器学习

干货 | 可解释的机器学习

AI科技评论

20+阅读 · 2019年7月3日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph

Arxiv

0+阅读 · 2月13日

Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control

Arxiv

0+阅读 · 2月12日

LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation

Arxiv

0+阅读 · 2月11日

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

CAPER: Constrained and Procedural Reasoning for Robotic Scientific Experiments

Arxiv

0+阅读 · 2月10日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

SEMNAV: Enhancing Visual Semantic Navigation in Robotics through Semantic Segmentation

Arxiv

0+阅读 · 2月3日

TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement

Arxiv

0+阅读 · 1月28日

VIP会员

文章信息

相关主题

机器人操作

最新内容

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

0+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

3+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

4+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

12+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

相关VIP内容

稀疏点云感知的表示学习

稀疏点云感知的表示学习

专知会员服务

9+阅读 · 2月9日

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

【AAAI2026】空间操盘手：基于解耦空间表征的鲁棒机器人操作研究

专知会员服务

8+阅读 · 2025年11月13日

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

面向机器人操作的基于大型视觉‑语言模型（VLM）的视觉‑语言‑动作（VLA）模型综述

专知会员服务

34+阅读 · 2025年8月19日

《鲁棒高效边缘人工智能：赋能边缘设备智能的新原理与框架》154页

《鲁棒高效边缘人工智能：赋能边缘设备智能的新原理与框架》154页

专知会员服务

32+阅读 · 2025年4月11日

面向空间机器人辅助操作的任务规划方法研究

面向空间机器人辅助操作的任务规划方法研究

专知会员服务

22+阅读 · 2025年2月10日

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

【牛津大学博士论文】面向对象的生成模型在机器人感知与行动中的应用，148页pdf

专知会员服务

22+阅读 · 2024年2月13日

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

【斯坦福博士论文】大模型驱动的鲁棒机器学习，243页pdf

专知会员服务

59+阅读 · 2023年7月10日

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

【KAUST博士论文】面向3D理解的鲁棒深度学习模型设计，190页pdf

专知会员服务

31+阅读 · 2023年4月27日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

现代战争的隐蔽系统：伊朗战争十大启示

GNN跨域综述：从消息传递到图基础模型

相关资讯

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

【斯坦福博士论文】将深度学习机器人学习扩展到广泛的现实世界数据，176页pdf

专知

12+阅读 · 2023年4月4日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

IROS2020|机器人自主探索与建图算法，代码已开源！

IROS2020|机器人自主探索与建图算法，代码已开源！

中国图象图形学报

34+阅读 · 2020年9月8日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

干货 | 可解释的机器学习

干货 | 可解释的机器学习

AI科技评论

20+阅读 · 2019年7月3日

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

今日面试题分享：请写出你了解的机器学习特征工程操作，以及它的意义

七月在线实验室

39+阅读 · 2019年3月20日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

深度学习时代的图模型，清华发文综述图网络

深度学习时代的图模型，清华发文综述图网络

GAN生成式对抗网络

13+阅读 · 2018年12月23日

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

赛尔原创 | 聊天机器人中用户出行消费意图识别方法研究

哈工大SCIR

19+阅读 · 2017年10月30日

相关论文

HybridFlow: A Two-Step Generative Policy for Robotic Manipulation

Arxiv

0+阅读 · 2月14日

UniManip: General-Purpose Zero-Shot Robotic Manipulation with Agentic Operational Graph

Arxiv

0+阅读 · 2月13日

Robot-DIFT: Distilling Diffusion Features for Geometrically Consistent Visuomotor Control

Arxiv

0+阅读 · 2月12日

LaSSM: Efficient Semantic-Spatial Query Decoding via Local Aggregation and State Space Models for 3D Instance Segmentation

Arxiv

0+阅读 · 2月11日

RoboInter: A Holistic Intermediate Representation Suite Towards Robotic Manipulation

Arxiv

0+阅读 · 2月10日

Instruct2Act: From Human Instruction to Actions Sequencing and Execution via Robot Action Network for Robotic Manipulation

Arxiv

0+阅读 · 2月10日

CAPER: Constrained and Procedural Reasoning for Robotic Scientific Experiments

Arxiv

0+阅读 · 2月10日

RANGER: A Monocular Zero-Shot Semantic Navigation Framework through Contextual Adaptation

Arxiv

0+阅读 · 2月5日

SEMNAV: Enhancing Visual Semantic Navigation in Robotics through Semantic Segmentation

Arxiv

0+阅读 · 2月3日

TRACER: Texture-Robust Affordance Chain-of-Thought for Deformable-Object Refinement

Arxiv

0+阅读 · 1月28日

相关基金

空间近场完全非合作目标鲁棒相对位姿确定方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

无力传感器策略和可逆向驱动机构并用提高手术机器人触觉感知性能的新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于智能空间的云机器人行为知识驱动服务机制研究

国家自然科学基金

3+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

机器灵巧手基于触滑觉信息协同的自适应力控制方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员