RHO: Your Coding Agent is Secretly a Roboticist - 专知论文

会员服务 ·

0

代码 · 操作 · 工具 · 机器人 · CAP ·

RHO: Your Coding Agent is Secretly a Roboticist

翻译：RHO：你的编码智能体暗藏机器人学家之魂

Karim Elmaaroufi,Justin Svegliato,Sarunas Kalade,Graham Schelle,Sanjit A. Seshia,Matei Zaharia

from arxiv, 46 pages, 9 figures, 15 tables. Project page: https://rho-robotics.github.io

Code-as-Policies (CaP) has shown that large language models (LLMs) can write code to solve robotics tasks by composing perception, planning, and control primitives. Recent CaP systems, however, rely on multi-turn code-generation loops at test time, which is often infeasible for real-time robot control. We introduce Robotics Harness Optimization (RHO), a novel paradigm in which tool-enabled coding agents, at training time, propose and search for interpretable, neurosymbolic multi-file policy repositories (Repositories-as-Policies) that compose these primitives rather than a single prompt, function, or file. RHO searches with reflective feedback from environment reward and execution rather than teleoperation demonstrations. It generalizes to perturbed pick-and-place settings like LIBERO-PRO, where OpenVLA scores 0.0% and $π_{0.5}$ averages 12.83%. Using the same low-level primitives, RHO reaches a 45.0% success rate, 2.5x higher than the strongest multi-turn agentic system, and 3.5x higher than $π_{0.5}$. On Robosuite, RHO sets a new state-of-the-art of 70.0%, exceeding the prior multi-turn record of 68.29% using single-turn execution with no corrective LLM code edits at deployment. When an LLM is used in the control loop, as on RAI's O3DE benchmark, RHO optimizes the deployed agent's multi-file harness of prompts, tools, and control code, improving held-out success from 23.5% to 44.3% with 20% less wall-clock time and 27% fewer tool calls.

翻译：代码即策略（Code-as-Policies, CaP）表明，大语言模型（LLMs）可通过编排感知、规划与控制基元编写代码以解决机器人任务。然而，近期CaP系统在测试阶段依赖多轮代码生成循环，这通常难以满足机器人实时控制需求。本文提出机器人操作优化框架（Robotics Harness Optimization, RHO），该创新范式使工具赋能编码智能体在训练阶段能够通过提议和搜索，构建可解释的神经符号化多文件策略仓库（仓库即策略，Repositories-as-Policies），而非依赖单一提示、函数或文件。RHO利用环境奖励与执行结果的反省式反馈进行搜索，而非依赖遥操作示范。在LIBERO-PRO等受扰动的拾取放置场景中，OpenVLA得分为0.0%、π₀.₅平均得分为12.83%时，RHO使用相同低级基元实现45.0%成功率，较最强多轮智能体系统提升2.5倍，较π₀.₅提升3.5倍。在Robosuite基准测试中，RHO以70.0%成功率刷新当前最优记录，超越先前多轮记录68.29%，且部署阶段无需LLM代码修正。当LLM介入控制回路时（如RAI的O3DE基准测试），RHO优化部署智能体的多文件操作框架（含提示、工具与控制代码），将留出成功率从23.5%提升至44.3%，同时减少20%时钟时间与27%工具调用次数。

0

相关内容

代码（Code）是专知网的一个重要知识资料文档板块，旨在整理收录论文源代码、复现代码，经典工程代码等，便于用户查阅下载使用。

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

13+阅读 · 5月12日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

专知会员服务

35+阅读 · 2025年12月28日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

48+阅读 · 2025年8月18日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

专知会员服务

29+阅读 · 2024年5月14日

大型语言模型与智能机器人集成的综述

大型语言模型与智能机器人集成的综述

专知会员服务

71+阅读 · 2024年4月22日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

专知

13+阅读 · 2022年5月2日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

为了夸夸聊天机器人，爬了一份夸夸语料库

为了夸夸聊天机器人，爬了一份夸夸语料库

AINLP

21+阅读 · 2019年3月19日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition

Arxiv

0+阅读 · 6月12日

Functional Cache Grafting: Robust and Rapid Code-Policy Synthesis for Embodied Agents

Arxiv

0+阅读 · 6月11日

Agentic Neuro-Symbolic Planning and Commissioning for Human-in-the-Loop Industrial Robotics with Digital Twins

Arxiv

0+阅读 · 6月6日

ModuLoop : Low-Level Code Generation using Modular Synthesizer and Closed-Loop Debugger for Robotic Control

Arxiv

0+阅读 · 6月2日

HLL: Can Agents Cross Humanity's Last Line of Verification?

Arxiv

0+阅读 · 6月1日

How to Compare the Security of Code Written by Humans to LLM-generated Code

Arxiv

0+阅读 · 5月29日

When Search Becomes Memory: Turning Robot Design Trials into Transferable Skills

Arxiv

0+阅读 · 5月25日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation

Arxiv

0+阅读 · 5月13日

Communicative Agents for Software Development

Arxiv

11+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

6+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

6+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

5+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

5+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

《执行无人机蜂群任务：智能体增强大语言模型推理赋能无人机物联网》

专知会员服务

13+阅读 · 5月12日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

专知会员服务

35+阅读 · 2025年12月28日

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

最新新Agent综述！76页327篇论文梳理，北交大桑基韬教授团队发布《迈向模型原生智能体式人工智能的范式转变综述》

专知会员服务

40+阅读 · 2025年10月17日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

48+阅读 · 2025年8月18日

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

《人类与机器：兵棋推演中人类专家与大语言模型的行为差异》

专知会员服务

34+阅读 · 2024年10月16日

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

专知会员服务

29+阅读 · 2024年5月14日

大型语言模型与智能机器人集成的综述

大型语言模型与智能机器人集成的综述

专知会员服务

71+阅读 · 2024年4月22日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

79+阅读 · 2024年1月10日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

【斯坦福博士论文】机器人仿真与控制的组合优化，210页pdf

专知

10+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

【硬核书】《现代机器人学：机构、规划与控制》，642页pdf

专知

13+阅读 · 2022年5月2日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

【前沿】让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

中国自动化学会

11+阅读 · 2019年6月18日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

为了夸夸聊天机器人，爬了一份夸夸语料库

为了夸夸聊天机器人，爬了一份夸夸语料库

AINLP

21+阅读 · 2019年3月19日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

AgentSpec: Understanding Embodied Agent Scaffolds Through Controlled Composition

Arxiv

0+阅读 · 6月12日

Functional Cache Grafting: Robust and Rapid Code-Policy Synthesis for Embodied Agents

Arxiv

0+阅读 · 6月11日

Agentic Neuro-Symbolic Planning and Commissioning for Human-in-the-Loop Industrial Robotics with Digital Twins

Arxiv

0+阅读 · 6月6日

ModuLoop : Low-Level Code Generation using Modular Synthesizer and Closed-Loop Debugger for Robotic Control

Arxiv

0+阅读 · 6月2日

HLL: Can Agents Cross Humanity's Last Line of Verification?

Arxiv

0+阅读 · 6月1日

How to Compare the Security of Code Written by Humans to LLM-generated Code

Arxiv

0+阅读 · 5月29日

When Search Becomes Memory: Turning Robot Design Trials into Transferable Skills

Arxiv

0+阅读 · 5月25日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

Self-CriTeach: LLM Self-Teaching and Self-Critiquing for Improving Robotic Planning via Automated Domain Generation

Arxiv

0+阅读 · 5月13日

Communicative Agents for Software Development

Arxiv

11+阅读 · 2023年8月28日

相关基金

共融机器人战略规划研究和学术交流

国家自然科学基金

15+阅读 · 2016年12月31日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非结构环境下基于三维肢体动作理解的工业机器人交互技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

仿人轻型机械臂人机协作模式关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

不确定非完整移动机器人基于一致性的分布式编队控制研究

国家自然科学基金

14+阅读 · 2015年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员