Mobile manipulation is a fundamental capability that enables robots to interact in expansive environments such as homes and factories. Most existing approaches follow a two-stage paradigm, where the robot first navigates to a docking point and then performs fixed-base manipulation using powerful visuomotor policies. However, real-world mobile manipulation often suffers from the view generalization problem due to shifts of docking points. To address this issue, we propose a novel low-cost demonstration generation framework named DockAnywhere, which improves viewpoint generalization under docking variability by lifting a single demonstration to diverse feasible docking configurations. Specifically, DockAnywhere lifts a trajectory to any feasible docking points by decoupling docking-dependent base motions from contact-rich manipulation skills that remain invariant across viewpoints. Feasible docking proposals are sampled under feasibility constraints, and corresponding trajectories are generated via structure-preserving augmentation. Visual observations are synthesized in 3D space by representing the robot and objects as point clouds and applying point-level spatial editing to ensure the consistency of observation and action across viewpoints. Extensive experiments on ManiSkill and real-world platforms demonstrate that DockAnywhere substantially improves policy success rates and easily generalizes to novel viewpoints from unseen docking points during training, significantly enhancing the generalization capability of mobile manipulation policy in real-world deployment.


翻译:移动操作是机器人在家庭、工厂等开阔环境中实现交互的基础能力。现有方法多采用两阶段范式:机器人首先导航至对接点,随后借助强大的视触觉策略执行固定基座操作。然而,现实环境中的移动操作常因对接点偏移导致视角泛化问题。为此,本文提出名为DockAnywhere的低成本示教生成框架,通过将单次示教扩展至多样化可行对接配置,提升对接变异性下的视角泛化能力。具体而言,DockAnywhere通过解耦对接依赖的基座运动与视角无关的接触操作技能,将轨迹提升至任意可行对接点。在可行性约束下对可行对接方案进行采样,并通过结构保持增强生成对应轨迹。通过将机器人与物体表示为三维点云并实施点级空间编辑,合成三维空间视觉观测,确保跨视角观测与动作的一致性。在ManiSkill仿真平台与真实物理环境中的大量实验表明,DockAnywhere显著提升策略成功率,并能轻易泛化至训练中未见对接点的新视角,极大增强了移动操作策略在真实部署中的泛化能力。

0
下载
关闭预览

相关内容

【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
【CMU博士论文】强化学习的泛化灵巧性,182页pdf
专知会员服务
42+阅读 · 2023年11月4日
多图带你读懂 Transformers 的工作原理
AI研习社
10+阅读 · 2019年3月18日
迁移自适应学习最新综述,附21页论文下载
【紫冬分享】移动机器人视觉里程计综述
中国科学院自动化研究所
12+阅读 · 2018年10月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员