Vision-based robotic policies often struggle with even minor viewpoint changes, underscoring the need for view-invariant visual representations. This challenge becomes more pronounced in real-world settings, where viewpoint variability is unavoidable and can significantly disrupt policy performance. Existing methods typically learn invariance from multi-view observations at the scene level, but such approaches rely on visual appearance and fail to incorporate the physical dynamics essential for robust generalization. We propose View-Invariant Latent Action (VILA), which models a latent action capturing transition patterns across trajectories to learn view-invariant representations grounded in physical dynamics. VILA aligns these latent actions across viewpoints using an action-guided objective based on ground-truth action sequences. Experiments in both simulation and the real world show that VILA-based policies generalize effectively to unseen viewpoints and transfer well to new tasks, establishing VILA as a strong pretraining framework that improves robustness and downstream learning performance.


翻译:基于视觉的机器人策略通常难以应对微小的视角变化,这凸显了对视角不变视觉表征的需求。这一挑战在现实场景中更为突出,因为视角变化不可避免且会显著影响策略性能。现有方法通常从场景级别的多视角观测中学习不变性,但这类方法依赖于视觉外观,未能融入对鲁棒泛化至关重要的物理动力学。我们提出视角不变潜在动作(VILA),该方法通过建模捕捉轨迹间转移模式的潜在动作,来学习基于物理动力学的视角不变表征。VILA利用基于真实动作序列的动作引导目标,在不同视角间对齐这些潜在动作。仿真和现实世界的实验表明,基于VILA的策略能有效泛化到未见视角,并良好迁移至新任务,从而确立了VILA作为一种强大的预训练框架,可提升鲁棒性和下游学习性能。

0
下载
关闭预览

相关内容

专知会员服务
41+阅读 · 2021年6月19日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员