Vision-Language-Action (VLA) models have recently become a central direction in embodied AI, but current systems are restricted to either dual-gripper control or single-arm dexterous hand manipulation. While low-dimensional gripper control can often be handled with simpler methods, high-dimensional dexterous hand control benefits greatly from full end-to-end VLA learning. In this work, we introduce Dexora, the first open-source VLA system that natively targets dual-arm, dual-hand high-DoF manipulation. We design a hybrid teleoperation pipeline that decouples gross arm kinematics (captured with a custom exoskeleton backpack) from fine finger motion (markerless hand tracking via Apple Vision Pro), and that drives both a physical dual-arm dual-hand platform and an identical MuJoCo digital twin. Using that interface, we assemble a large training corpus: an embodiment-matched synthetic corpus (100K simulated trajectories, 6.5M frames) and a real-world dataset of 10K teleoperated episodes (2.92M frames). To mitigate noisy teleoperation demonstrations, we propose a data-quality-aware training recipe: an offline discriminator provides clip-level weights for diffusion-transformer policy training, down-weighting low-quality demonstrations. Empirically, Dexora outperforms competitive VLA baselines on both basic and dexterous benchmarks (e.g., average dexterous success 66.7% vs. 51.7%), attains 90% success on basic tasks, and shows robust out-of-distribution and cross-embodiment generalization. Ablations confirm the importance of real data and the discriminator for dexterity.


翻译:视觉-语言-动作模型近期已成为具身智能领域的核心方向,但现有系统仅限于双夹爪控制或单臂灵巧手操作。尽管低维夹爪控制可通过简单方法实现,但高维灵巧手操作能显著受益于完整的端到端VLA学习。本文提出Dexora——首个原生面向双臂双手高自由度操作的开源VLA系统。我们设计了一种混合遥操作流水线,将粗手臂运动学(通过定制外骨骼背包捕获)与精细手指运动(通过Apple Vision Pro实现无标记手部追踪)解耦,并同步驱动实体双臂双手平台及其MuJoCo数字孪生模型。基于该接口,我们构建了大规模训练语料库:包含10万条模拟轨迹(650万帧)的具身匹配合成数据集与1万条遥操作真实世界示范片段(292万帧)。为克服遥操作示范中的噪声问题,我们提出数据质量感知训练方案:离线判别器为扩散Transformer策略训练提供片段级权重,降低低质量示范的影响。实验表明,Dexora在基础与灵巧两类基准测试中均超越主流VLA基线(如灵巧操作平均成功率66.7%对比51.7%),基础任务成功率达90%,并展现出稳健的分布外与跨形态泛化能力。消融实验证实了真实数据与判别器对灵巧操作的重要性。

0
下载
关闭预览

相关内容

面向具身操作的高效视觉–语言–动作模型:系统综述
专知会员服务
26+阅读 · 2025年10月22日
视觉-语言-动作(VLA)模型的前世今生
专知会员服务
21+阅读 · 2025年8月29日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
视觉语言动作模型:概念、进展、应用与挑战
专知会员服务
19+阅读 · 2025年5月18日
VILA-U:一个融合视觉理解与生成的统一基础模型
专知会员服务
21+阅读 · 2024年9月9日
CALDERA 一款对手自动模拟工具
黑白之道
20+阅读 · 2019年9月17日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
美空军选定两家供应商研制AI驾驶战斗无人机
专知会员服务
2+阅读 · 今天15:26
乌克兰战场上的创新技术
专知会员服务
5+阅读 · 今天8:46
《安全且具韧性的太空通信》300页
专知会员服务
4+阅读 · 今天8:43
透视欧洲下一代“主战地面作战系统”(MGCS)
专知会员服务
3+阅读 · 今天8:28
无人机数据战
专知会员服务
8+阅读 · 6月28日
无人机非战争未来——实为亟待破解之困局
专知会员服务
5+阅读 · 6月28日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员