While vision-language-action (VLA) models have advanced generalist robotic learning, cross-embodiment transfer remains challenging due to kinematic heterogeneity and the high cost of collecting sufficient real-world demonstrations to support fine-tuning. Existing cross-embodiment policies typically rely on shared-private architectures, which suffer from limited capacity of private parameters and lack explicit adaptation mechanisms. To address these limitations, we introduce MOTIF for efficient few-shot cross-embodiment transfer that decouples embodiment-agnostic spatiotemporal patterns, termed action motifs, from heterogeneous action data. Specifically, MOTIF first learns unified motifs via vector quantization with progress-aware alignment and embodiment adversarial constraints to ensure temporal and cross-embodiment consistency. We then design a lightweight predictor that predicts these motifs from real-time inputs to guide a flow-matching policy, fusing them with robot-specific states to enable action generation on new embodiments. Evaluations across both simulation and real-world environments validate the superiority of MOTIF, which significantly outperforms strong baselines in few-shot transfer scenarios by 6.5% in simulation and 43.7% in real-world settings. Code is available at https://github.com/buduz/MOTIF.


翻译:尽管视觉-语言-动作(VLA)模型已推动通用机器人学习的发展,但由于运动学异构性以及收集足够真实世界演示数据以支持微调的高昂成本,跨具身迁移仍然面临挑战。现有的跨具身策略通常依赖于共享-私有架构,这种架构受限于私有参数容量不足且缺乏显式的适应机制。为解决这些局限性,我们提出MOTIF,用于实现高效的少样本跨具身迁移。该方法从异构动作数据中解耦出与具身无关的时空模式,即动作基元。具体而言,MOTIF首先通过向量量化学习统一的基元,该过程结合了进度感知对齐和具身对抗约束,以确保时间一致性和跨具身一致性。随后,我们设计了一个轻量级预测器,用于从实时输入中预测这些基元,以指导流匹配策略,并将基元与机器人特定状态融合,从而在新具身上实现动作生成。在仿真和真实环境中的评估验证了MOTIF的优越性,其在少样本迁移场景中显著优于强基线模型,仿真性能提升6.5%,真实世界性能提升43.7%。代码可在 https://github.com/buduz/MOTIF 获取。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
【斯坦福博士论文】移动操作机器人的学习系统构建研究
专知会员服务
14+阅读 · 2025年11月14日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
数据驱动的具身学习探索
专知会员服务
16+阅读 · 2025年2月26日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
深度 | 迁移学习全面概述:从基本概念到相关研究
七月在线实验室
15+阅读 · 2017年8月15日
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
相关基金
国家自然科学基金
39+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员