The integration of large language models (LLMs) with embodied agents has improved high-level reasoning capabilities; however, a critical gap remains between semantic understanding and physical execution. While vision-language-action (VLA) and vision-language-navigation (VLN) systems enable robots to perform manipulation and navigation tasks from natural language instructions, they still struggle with long-horizon sequential and temporally structured tasks. Existing frameworks typically adopt modular pipelines for data collection, skill training, and policy deployment, resulting in high costs in experimental validation and policy optimization. To address these limitations, we propose ROSClaw, an agent framework for heterogeneous robots that integrates policy learning and task execution within a unified vision-language model (VLM) controller. The framework leverages e-URDF representations of heterogeneous robots as physical constraints to construct a sim-to-real topological mapping, enabling real-time access to the physical states of both simulated and real-world agents. We further incorporate a data collection and state accumulation mechanism that stores robot states, multimodal observations, and execution trajectories during real-world execution, enabling subsequent iterative policy optimization. During deployment, a unified agent maintains semantic continuity between reasoning and execution, and dynamically assigns task-specific control to different agents, thereby improving robustness in multi-policy execution. By establishing an autonomous closed-loop framework, ROSClaw minimizes the reliance on robot-specific development workflows. The framework supports hardware-level validation, automated generation of SDK-level control programs, and tool-based execution, enabling rapid cross-platform transfer and continual improvement of robotic skills. Ours project page: https://www.rosclaw.io/.


翻译:大型语言模型(LLMs)与具身智能体的整合虽提升了高层推理能力,但语义理解与物理执行之间仍存在关键鸿沟。尽管视觉-语言-动作(VLA)与视觉-语言-导航(VLN)系统使机器人能够根据自然语言指令执行操作与导航任务,但在处理长时序、时间结构化任务时仍面临挑战。现有框架通常采用模块化流水线进行数据采集、技能训练与策略部署,导致实验验证与策略优化成本高昂。为突破上述局限,我们提出ROSClaw——一个面向异构机器人的智能体框架,将策略学习与任务执行整合于统一视觉-语言模型(VLM)控制器中。该框架利用异构机器人的e-URDF表达作为物理约束,构建仿真-现实拓扑映射,实现仿真与真实智能体物理状态的实时访问。我们进一步引入数据采集与状态积累机制,在真实世界执行过程中存储机器人状态、多模态观测与执行轨迹,支持后续迭代策略优化。部署阶段,统一智能体在推理与执行间维持语义连续性,并动态分配任务特异性控制至不同智能体,从而提升多策略执行的鲁棒性。通过建立自主闭环框架,ROSClaw最大程度减少了对机器人特异性开发工作流的依赖。该框架支持硬件级验证、SDK级控制程序自动生成及工具化执行,实现机器人技能的跨平台快速迁移与持续改进。项目页面:https://www.rosclaw.io/。

0
下载
关闭预览

相关内容

【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
35+阅读 · 2025年5月16日
多智能体协作机制:大语言模型综述
专知会员服务
86+阅读 · 2025年1月14日
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
用Rasa NLU构建自己的中文NLU系统
待字闺中
18+阅读 · 2017年9月18日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
认知战与交战性质的改变:神经战略视角
专知会员服务
5+阅读 · 5月8日
人工智能如何变革军事C5ISR作战
专知会员服务
12+阅读 · 5月8日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员