While pre-trained visual representations have significantly advanced imitation learning, they are often task-agnostic as they remain frozen during policy learning. In this work, we explore leveraging pre-trained text-to-image diffusion models to obtain task-adaptive visual representations for robotic control, without fine-tuning the model itself. However, we find that naively applying textual conditions - a successful strategy in other vision domains - yields minimal or even negative gains in control tasks. We attribute this to the domain gap between the diffusion model's training data and robotic control environments, leading us to argue for conditions that consider the specific, dynamic visual information required for control. To this end, we propose ORCA, which introduces learnable task prompts that adapt to the control environment and visual prompts that capture fine-grained, frame-specific details. Through facilitating task-adaptive representations with our newly devised conditions, our approach achieves state-of-the-art performance on various robotic control benchmarks, significantly surpassing prior methods.


翻译:尽管预训练的视觉表征已显著推进模仿学习的发展,但这些表征在策略学习过程中通常保持冻结状态,因而往往缺乏任务针对性。本研究探讨如何利用预训练的文本到图像扩散模型获取面向机器人控制的任务自适应视觉表征,同时避免对模型本身进行微调。然而我们发现,将文本条件直接应用于控制任务(该策略在其他视觉领域行之有效)效能甚微甚至产生负收益。我们将其归因于扩散模型训练数据与机器人控制环境之间的领域鸿沟,由此主张应针对控制所需的特定动态视觉信息设计条件。为此,我们提出ORCA方法,通过引入可学习的任务提示(适应控制环境特质)与视觉提示(捕捉细粒度的帧级细节)。借助新设计的条件机制促进任务自适应表征,本方法在多个机器人控制基准测试中取得了最优性能,显著超越了现有方法。

0
下载
关闭预览

相关内容

机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
扩散模型与表示学习:综述
专知会员服务
49+阅读 · 2024年7月2日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
【机器学习】机器学习工业领域应用
产业智能官
11+阅读 · 2018年10月23日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
22+阅读 · 2023年11月2日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
机器人操作扩散模型综述
专知会员服务
21+阅读 · 2025年4月14日
扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
《基于扩散模型的条件图像生成》综述
专知会员服务
44+阅读 · 2024年10月1日
《扩散模型及其应用》最新综述
专知会员服务
50+阅读 · 2024年8月21日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
扩散模型与表示学习:综述
专知会员服务
49+阅读 · 2024年7月2日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
相关基金
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员