Existing vision encoders for robotics face a fundamental bottleneck: robotic datasets lack the scale necessary for large-scale pre-training. Prior work circumvents this data scarcity by turning to internet-scale image and language data or egocentric human video. While these models show promise, neither paradigm learns from paired vision and action data, which downstream visuomotor control policies require. However, robot trajectories, the most direct source of this paired signal, are not available at pre-training scale, motivating us to extract action signals from abundant human video instead. To this end, we introduce CAIP (Contrastive Action-Image Pre-training), a vision encoder that treats human hand poses from large-scale egocentric video as a proxy for end-effector actions. By extracting 3D hand keypoints, a representation that aligns naturally with downstream robot action spaces, CAIP learns a unified action-image representation through a contrastive objective. Leveraging 32,041 hours of egocentric human video and only 88 hours of robotic manipulation data, CAIP outperforms state-of-the-art vision encoders including DINOv2, SigLIP, MVP, and R3M. Evaluated on a challenging real-world dexterous manipulation setup using Dexmate Vega and Sharpa Wave hands, CAIP yields performance gains of more than 30% on tasks involving folding, pouring, and fine-grained manipulation. Our results show that our method of contrastive action-centric pre-training yields a scalable path to achieving robust visual representations better suited for physical interaction.


翻译:现有面向机器人应用的视觉编码器面临根本瓶颈:机器人数据集缺乏大规模预训练所需的数据规模。先前研究通过转向互联网规模的图像与语言数据或以自我为中心的人类视频来规避数据稀缺问题。尽管这些模型展现出潜力,但两种范式均未利用配对视觉-动作数据进行学习——而这正是下游视觉运动控制策略所需的关键信号。然而,最直接的配对信号来源(机器人轨迹)在预训练阶段尚不可得,这促使我们从丰富的人类视频中提取动作信号。为此,我们提出CAIP(对比式动作-图像预训练),这是一种将大规模自我中心视频中的人类手部姿态视为末端执行器动作代理的视觉编码器。通过提取三维手部关键点(一种与下游机器人动作空间自然对齐的表征),CAIP借助对比学习目标学习统一的动作-图像表征。利用32,041小时自我中心人类视频与仅88小时机器人操作数据,CAIP在性能上超越DINOv2、SigLIP、MVP及R3M等最先进视觉编码器。在使用Dexmate Vega与Sharpa Wave机械手的现实挑战性灵巧操作评估中,CAIP在涉及折叠、倾倒及精细操控的任务上取得超过30%的性能提升。实验结果表明,我们提出的以动作为中心的对比式预训练方法,为实现更适配物理交互的鲁棒视觉表征提供了可扩展路径。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
对比自监督学习
深度学习自然语言处理
35+阅读 · 2020年7月15日
ICML2020 图神经网络的预训练
图与推荐
12+阅读 · 2020年4月4日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
用于三维医学影像理解的综合语言–图像预训练
专知会员服务
7+阅读 · 2025年11月5日
视觉语言多模态预训练综述
专知会员服务
122+阅读 · 2022年7月11日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员