We present GHOST, a framework for learning visuomotor manipulation policies that generalize beyond the training distribution. GHOST factorizes control into (i) a high-level policy that predicts the next sub-goal as a distribution over 3D end-effector poses from multi-view RGB-D observations, and (ii) a low-level goal-conditioned controller that executes embodiment-specific actions. To condition image-based policies on 3D goals, we introduce a simple spatial interface that projects predicted goals into the image plane and represents them as end-effector heatmaps. Across a suite of manipulation tasks, this hierarchical factorization consistently improves performance and robustness compared to a flat Diffusion Policy. Further, we show that this hierarchical interface also makes it easy to incorporate human demonstrations without relying on (noisy) action retargeting. As sub-goals are largely embodiment-agnostic, we train the high-level policy on human video to specify how learned skills should be applied and composed, while keeping the low-level policy trained purely on robot data. This hierarchy enables adaptation to novel objects and task variations using a small number of human demonstrations.


翻译:摘要:我们提出GHOST框架,用于学习能泛化到训练分布之外的视觉运动操作策略。GHOST将控制分解为:(i)高层策略,根据多视角RGB-D观测预测下一个子目标在三维末端执行器姿态上的分布;(ii)低层目标条件控制器,执行具体具身动作。为将基于图像的策略与三维目标关联,我们引入简单空间接口,将预测目标投影至图像平面并以末端执行器热图形式表征。在一组操作任务中,这种分层分解相较于扁平扩散策略持续提升了性能与鲁棒性。进一步表明,该分层接口还能轻松融入人类示教数据而无需依赖(含噪声的)动作重定向。由于子目标很大程度上与具身形态无关,我们利用人类视频训练高层策略以指定学习技能的应用与组合方式,同时保持低层策略仅基于机器人数据训练。这种分层架构使系统能够通过少量人类示教数据适应新物体及任务变体。

0
下载
关闭预览

相关内容

《支持作战级人机协同智能的交互式OODA流程》
专知会员服务
24+阅读 · 6月7日
《基于Transformer的智能体的战术决策解释》
专知会员服务
49+阅读 · 2025年12月28日
《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
47+阅读 · 2025年10月30日
《异步通信下的分布式武器-目标分配》
专知会员服务
63+阅读 · 2024年6月21日
计算机视觉方向简介 | 多目标跟踪算法(附源码)
计算机视觉life
15+阅读 · 2019年6月26日
目标跟踪算法分类
大数据技术
13+阅读 · 2018年9月17日
入门 | 一文概览视频目标分割
机器之心
10+阅读 · 2017年10月6日
国家自然科学基金
122+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
2025年全球二十起重大无人机作战事件
专知会员服务
2+阅读 · 6月27日
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
3+阅读 · 6月27日
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
5+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
8+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
15+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
8+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
9+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关基金
国家自然科学基金
122+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员