While Vision-Language-Action models (VLAs) have shown remarkable progress toward human-like generalist robotic policies through the versatile intelligence (i.e. broad scene understanding and language-conditioned generalization) inherited from pre-trained Vision-Language Models, they still struggle with complex real-world tasks requiring broader functional capabilities (e.g. motion awareness, long-term memory, and physical sensing). To address this, we introduce RLDX-1, a general-purpose robotic policy for dexterous manipulation built on the Multi-Stream Action Transformer (MSAT), an architecture that unifies these capabilities by integrating heterogeneous modalities through modality-specific streams with cross-modal joint self-attention. RLDX-1 further combines this architecture with system-level design choices, including data synthesis for rare manipulation scenarios, learning procedures specialized for human-like manipulation, and inference optimizations for real-time deployment. Through empirical evaluation, we show that RLDX-1 consistently outperforms recent frontier VLAs (e.g. $π_{0.5}$ and GR00T N1.6) across both simulation benchmarks and real-world tasks that require broad functional capabilities beyond general versatility. In particular, RLDX-1 shows superiority in ALLEX humanoid tasks by achieving success rates of 86.8% while $π_{0.5}$ and GR00T N1.6 achieve around 40%, highlighting the ability of RLDX-1 to control a high-DoF humanoid robot under diverse functional demands. Together, these results position RLDX-1 as a promising step toward reliable VLAs for complex, contact-rich, and dynamic real-world dexterous manipulation.


翻译:尽管视觉-语言-动作模型(VLAs)通过从预训练视觉语言模型中继承的通用智能(即广泛的场景理解与语言条件泛化能力)在类人通用机器人策略方面取得了显著进展,但其在需要更广泛功能(如运动感知、长期记忆与物理感知)的复杂现实世界任务中仍面临挑战。为解决这一问题,我们提出了RLDX-1——一种面向灵巧操作的通用机器人策略,其核心架构为多流动作Transformer(MSAT)。该架构通过多模态专用流与跨模态联合自注意力机制整合异构模态,实现了上述功能的统一。此外,RLDX-1还将该架构与系统级设计相结合,包括针对稀有操作场景的数据合成、面向类人操作的专用学习流程以及面向实时部署的推理优化。实证评估表明,RLDX-1在模拟基准测试和需要超越通用泛化能力的广泛功能实现的实际任务中,均持续优于近期前沿VLAs(如π₀.₅与GR00T N1.6)。特别是在ALLEX人形机器人任务中,RLDX-1以86.8%的成功率显著领先(π₀.₅与GR00T N1.6成功率约为40%),凸显了其在高自由度人形机器人在多样化功能需求下的控制能力。这些成果表明RLDX-1是迈向复杂、高接触动态环境下可靠VLAs操作的重要一步。

0
下载
关闭预览

相关内容

【综述】 机器人学习中的世界模型:全面综述
专知会员服务
20+阅读 · 5月4日
《机器人弹性物体感知技术研究》227页
专知会员服务
18+阅读 · 2025年11月20日
基础模型驱动的机器人技术:全面综述
专知会员服务
30+阅读 · 2025年7月15日
《OpenAI o1大模型》中英文技术报告,44页pdf
专知会员服务
150+阅读 · 2024年9月15日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月16日
Arxiv
0+阅读 · 6月14日
Arxiv
0+阅读 · 6月5日
Arxiv
0+阅读 · 6月4日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
5+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员