Acquiring large-scale, high-fidelity robot demonstration data remains a critical bottleneck for scaling Vision-Language-Action (VLA) models in dexterous manipulation. We propose a Real-Sim-Real data collection and data editing pipeline that transforms human demonstrations into robot-executable, environment-specific training data without direct robot teleoperation. Standardized data collection rooms are built to capture multimodal human demonstrations (synchronized 3 RGB-D videos, 11 RGB videos, 29-DoF glove joint angles, and 14-channel tactile signals). Based on these human demonstrations, we introduce a tactile-aware retargeting method that maps human hand states to robot dex-hand states via geometry and force-guided optimization. Then the retargeted robot trajectories are rendered in a photorealistic Isaac Sim environment to build robot training data. Real world experiments have demonstrated: (1) The retargeted dex-hand trajectories achieve an 84\% success rate across 10 diverse object manipulation tasks. (2) VLA policies (Pi0.5) trained exclusively on our generated data achieve 80\% average success rate on three representative tasks, i.e., pick-and-place, pushing and pouring. To conclude, robot training data can be efficiently "painted" from human demonstrations using our real-sim-real data pipeline. We offer a scalable, cost-effective alternative to teleoperation with minimal performance loss for complex dexterous manipulation.


翻译:获取大规模、高保真的机器人演示数据,仍然是扩展视觉-语言-动作(VLA)模型在灵巧操作中应用的关键瓶颈。我们提出了一种“真实-仿真-真实”数据收集与数据编辑流程,该流程将人类演示转化为机器人可执行、环境特定的训练数据,而无需直接的机器人遥操作。我们构建了标准化的数据采集室,以捕获多模态的人类演示数据(同步的3个RGB-D视频、11个RGB视频、29自由度手套关节角度以及14通道触觉信号)。基于这些人类演示,我们引入了一种触觉感知的重定向方法,该方法通过几何与力引导的优化,将人手状态映射到机器人灵巧手状态。随后,重定向后的机器人轨迹在照片级逼真的Isaac Sim仿真环境中进行渲染,以构建机器人训练数据。真实世界实验表明:(1)重定向后的灵巧手轨迹在10种不同的物体操作任务中实现了84%的成功率。(2)仅使用我们生成的数据训练的VLA策略(Pi0.5)在三个代表性任务(即拾取与放置、推动和倾倒)上实现了80%的平均成功率。总而言之,利用我们的真实-仿真-真实数据流程,可以高效地从人类演示中“绘制”出机器人训练数据。我们为复杂的灵巧操作提供了一种可扩展、成本效益高的遥操作替代方案,且性能损失最小。

0
下载
关闭预览

相关内容

视觉-语言-动作模型解析:从模块构成到里程碑与挑战
专知会员服务
17+阅读 · 2025年12月17日
面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
24+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
20+阅读 · 2025年8月29日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
13+阅读 · 2016年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员