Visual foundation models provide strong perceptual features for robotics, but their dense representations lack explicit object-level structure, limiting robustness and contractility in manipulation tasks. We propose STORM (Slot-based Task-aware Object-centric Representation for robotic Manipulation), a lightweight object-centric adaptation module that augments frozen visual foundation models with a small set of semantic-aware slots for robotic manipulation. Rather than retraining large backbones, STORM employs a multi-phase training strategy: object-centric slots are first stabilized through visual--semantic pretraining using language embeddings, then jointly adapted with a downstream manipulation policy. This staged learning prevents degenerate slot formation and preserves semantic consistency while aligning perception with task objectives. Experiments on object discovery benchmarks and simulated manipulation tasks show that STORM improves generalization to visual distractors, and control performance compared to directly using frozen foundation model features or training object-centric representations end-to-end. Our results highlight multi-phase adaptation as an efficient mechanism for transforming generic foundation model features into task-aware object-centric representations for robotic control.


翻译:视觉基础模型为机器人提供了强大的感知特征,但其稠密表示缺乏显式的物体级结构,限制了在操作任务中的鲁棒性和可收缩性。我们提出了STORM(面向机器人操作的基于槽位的任务感知物体中心表示),一种轻量级的物体中心适配模块,它通过一小部分语义感知的槽位来增强冻结的视觉基础模型,以用于机器人操作。STORM并非重新训练大型骨干网络,而是采用多阶段训练策略:物体中心槽位首先通过使用语言嵌入的视觉-语义预训练进行稳定,然后与下游操作策略联合适配。这种分阶段学习防止了槽位退化形成,保持了语义一致性,同时将感知与任务目标对齐。在物体发现基准测试和模拟操作任务上的实验表明,与直接使用冻结基础模型特征或端到端训练物体中心表示相比,STORM提高了对视觉干扰物的泛化能力和控制性能。我们的结果凸显了多阶段适配作为一种高效机制,可将通用基础模型特征转化为面向机器人控制的任务感知物体中心表示。

0
下载
关闭预览

相关内容

基础模型驱动的机器人技术:全面综述
专知会员服务
30+阅读 · 2025年7月15日
【数据中台】数据中台技术架构方案
产业智能官
15+阅读 · 2020年5月26日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
用PyTorch做物体检测和追踪
AI研习社
12+阅读 · 2019年1月6日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月27日
VIP会员
相关VIP内容
基础模型驱动的机器人技术:全面综述
专知会员服务
30+阅读 · 2025年7月15日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员