Leveraging vast amounts of unlabeled internet video data for embodied AI is currently bottlenecked by the lack of action labels and the presence of action-correlated visual distractors. Although recent latent action policy optimization (LAPO) has shown promise in inferring proxy action labels from visual observations, its performance degrades significantly when distractors are present. To address this limitation, we propose a novel object-centric latent action learning framework that centers on objects rather than pixels. We leverage self-supervised object-centric pretraining to disentangle the movement of the agent and distracting background dynamics. This allows LAPO to focus on task-relevant interactions, resulting in more robust proxy-action labels, enabling better imitation learning and efficient adaptation of the agent with just a few action-labeled trajectories. We evaluated our method in eight visually complex tasks across the Distracting Control Suite (DCS) and Distracting MetaWorld (DMW). Our results show that object-centric pretraining mitigates the negative effects of distractors by 50%, as measured by downstream task performance: average return (DCS) and success rate (DMW).


翻译:利用海量未标记互联网视频数据进行具身人工智能研究,目前面临两大瓶颈:动作标签的缺失以及动作相关视觉干扰物的存在。尽管近期的潜在动作策略优化(LAPO)方法在从视觉观测中推断代理动作标签方面显示出潜力,但其在存在干扰物时性能会显著下降。为克服这一局限,我们提出了一种新颖的面向对象的潜在动作学习框架,其核心关注对象而非像素。我们利用自监督的面向对象预训练来解耦智能体运动与干扰性背景动态。这使得LAPO能够专注于任务相关的交互,从而产生更鲁棒的代理动作标签,仅需少量带动作标签的轨迹即可实现更好的模仿学习与智能体的高效适应。我们在Distracting Control Suite(DCS)和Distracting MetaWorld(DMW)的八个视觉复杂任务中评估了我们的方法。结果表明,通过下游任务性能指标——平均回报(DCS)和成功率(DMW)衡量,面向对象的预训练将干扰物的负面影响降低了50%。

0
下载
关闭预览

相关内容

视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
数据驱动的具身学习探索
专知会员服务
10+阅读 · 2025年2月26日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
【自动化学报】零样本学习研究进展,中国石油大学
专知会员服务
88+阅读 · 2020年1月27日
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文看懂如何将深度学习应用于视频动作识别
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
相关资讯
最新《多任务学习》综述,39页pdf
专知
28+阅读 · 2020年7月10日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
一文看懂如何将深度学习应用于视频动作识别
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员