Robot manipulation critically depends on perception that preserves the action-relevant aspects of a scene. Yet most robot learning pipelines are built upon visual encoders pre-trained for static recognition or vision-language alignment, leaving motion understanding to downstream policies. We introduce DynaFLIP, a dynamics-aware multimodal pre-training framework that pushes motion understanding upstream into perception. We construct image-language-3D flow triplets from heterogeneous human and robot videos, and use these triplets as training-time supervision to shape an image-only encoder. Our key idea is to encourage the three modalities to span a small simplex volume in the shared hyperspherical space -- a smaller simplex volume indicating stronger alignment. To avoid the geometric ambiguity and trivial collapse of naive volume minimization, we combine simplex-volume minimization with a cosine regularizer and a contrastive objective. Our analyses show that DynaFLIP focuses on control-relevant regions critical for manipulation. The resulting dynamics-aware representations serve as reusable visual backbones and consistently outperform baselines across diverse downstream policies, including VLAs. We validate this across diverse simulation and real-world setups, with gains reaching +22.5% under out-of-distribution scenarios. Our results suggest that robot generalization improves when visual representations are trained to encode not just what is present, but how the world changes under action.


翻译:机器人操作关键依赖于能够保留场景中动作相关方面的感知。然而,大多数机器人学习流水线基于为静态识别或视觉-语言对齐而预训练的视觉编码器构建,将运动理解留给下游策略。我们提出DynaFLIP,一种动力学感知的多模态预训练框架,将运动理解推向上游感知。我们从异构的人类和机器人视频中构建图像-语言-3D流三元组,并使用这些三元组作为训练时监督来塑造仅使用图像的编码器。我们的关键思想是鼓励三种模态在共享超球面空间中跨越一个小的单纯形体积——更小的单纯形体积表示更强的对齐。为避免朴素体积最小化的几何歧义和琐碎崩溃,我们将单纯形体积最小化与余弦正则化器和对比目标相结合。我们的分析表明,DynaFLIP专注于对操作至关重要的控制相关区域。由此产生的动力学感知表示可作为可复用的视觉主干,并在各种下游策略(包括VLA)中持续优于基线。我们在多种仿真和真实世界设置中对此进行了验证,在分布外场景下实现了高达+22.5%的性能提升。我们的结果表明,当视觉表示被训练为不仅编码存在什么,而且编码世界如何在动作下变化时,机器人的泛化能力会得到改善。

0
下载
关闭预览

相关内容

基于神经网络的机器人学习与控制:回顾与展望
专知会员服务
33+阅读 · 2023年9月10日
【干货书】基于深度学习的机器人感知与认知,638页pdf
专知会员服务
113+阅读 · 2022年7月29日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
【机器人】机器人PID控制
产业智能官
10+阅读 · 2018年11月25日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
基于神经网络的机器人学习与控制:回顾与展望
专知会员服务
33+阅读 · 2023年9月10日
【干货书】基于深度学习的机器人感知与认知,638页pdf
专知会员服务
113+阅读 · 2022年7月29日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员