Humans can rearrange objects in cluttered environments using egocentric perception, navigating occlusions without global coordinates. Inspired by this capability, we study long-horizon multi-object non-prehensile rearrangement for mobile robots using a single egocentric camera. We introduce EgoPush, a policy learning framework that enables egocentric, perception-driven rearrangement without relying on explicit global state estimation that often fails in dynamic scenes. EgoPush designs an object-centric latent space to encode relative spatial relations among objects, rather than absolute poses. This design enables a privileged reinforcement-learning (RL) teacher to jointly learn latent states and mobile actions from sparse keypoints, which is then distilled into a purely visual student policy. To reduce the supervision gap between the omniscient teacher and the partially observed student, we restrict the teacher's observations to visually accessible cues. This induces active perception behaviors that are recoverable from the student's viewpoint. To address long-horizon credit assignment, we decompose rearrangement into stage-level subproblems using temporally decayed, stage-local completion rewards. Extensive simulation experiments demonstrate that EgoPush significantly outperforms end-to-end RL baselines in success rate, with ablation studies validating each design choice. We further demonstrate zero-shot sim-to-real transfer on a mobile platform in the real world. Code and videos are available at https://ai4ce.github.io/EgoPush/.


翻译:人类能够利用自我中心感知在杂乱环境中重排物体,无需全局坐标即可应对遮挡。受此能力启发,我们研究利用单一自我中心相机实现移动机器人的长时域多物体非抓取式重排。本文提出EgoPush——一种策略学习框架,能够在动态场景中不依赖常会失效的显式全局状态估计,实现以自我中心感知驱动的重排。EgoPush设计了以物体为中心的潜在空间,用于编码物体间的相对空间关系而非绝对位姿。该设计使特权强化学习(RL)教师能够从稀疏关键点联合学习潜在状态与移动动作,随后将其蒸馏至纯视觉学生策略中。为缩小全知教师与局部观测学生间的监督差距,我们将教师的观测限制在视觉可获取的线索范围内,从而诱导出可从学生视角恢复的主动感知行为。针对长时域信用分配问题,我们使用时序衰减的阶段局部完成奖励,将重排任务分解为阶段级子问题。大量仿真实验表明,EgoPush在成功率上显著优于端到端RL基线方法,消融实验验证了各项设计选择的有效性。我们进一步在真实世界移动平台上展示了零样本仿真到现实的迁移效果。代码与视频详见 https://ai4ce.github.io/EgoPush/。

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
面向机器人系统的虚实迁移强化学习综述
专知会员服务
44+阅读 · 2024年2月8日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
迁移自适应学习最新综述,附21页论文下载
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员