Agentic crafting requires LLMs to operate in real-world environments over multiple turns by taking actions, observing outcomes, and iteratively refining artifacts. Despite its importance, the open-source community lacks a principled, end-to-end ecosystem to streamline agent development. We introduce the Agentic Learning Ecosystem (ALE), a foundational infrastructure that optimizes the production pipeline for agent LLMs. ALE consists of three components: ROLL, a post-training framework for weight optimization; ROCK, a sandbox environment manager for trajectory generation; and iFlow CLI, an agent framework for efficient context engineering. We release ROME (ROME is Obviously an Agentic Model), an open-source agent grounded by ALE and trained on over one million trajectories. Our approach includes data composition protocols for synthesizing complex behaviors and a novel policy optimization algorithm, Interaction-based Policy Alignment (IPA), which assigns credit over semantic interaction chunks rather than individual tokens to improve long-horizon training stability. Empirically, we evaluate ROME within a structured setting and introduce Terminal Bench Pro, a benchmark with improved scale and contamination control. ROME demonstrates strong performance across benchmarks like SWE-bench Verified and Terminal Bench, proving the effectiveness of the ALE infrastructure.


翻译:智能体构建要求大型语言模型在现实环境中通过采取行动、观察结果并迭代优化产物,进行多轮操作。尽管其重要性不言而喻,开源社区目前仍缺乏一个原则性的端到端生态系统来简化智能体开发。我们引入了智能体学习生态系统(ALE),这是一个优化智能体大型语言模型生产流程的基础设施。ALE由三个组件构成:ROLL,一个用于权重优化的后训练框架;ROCK,一个用于轨迹生成的沙盒环境管理器;以及iFlow CLI,一个用于高效上下文工程的智能体框架。我们发布了ROME(ROME显然是一个智能体模型),这是一个基于ALE构建并在超过一百万条轨迹上训练的开源智能体。我们的方法包括用于合成复杂行为的数据组合协议,以及一种新颖的策略优化算法——基于交互的策略对齐(IPA),该算法在语义交互块而非单个令牌上分配信用,以提高长程训练的稳定性。通过实证研究,我们在结构化环境中评估了ROME,并引入了Terminal Bench Pro,这是一个在规模和污染控制方面均有改进的基准测试。ROME在SWE-bench Verified和Terminal Bench等基准测试中表现出色,证明了ALE基础设施的有效性。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
迈向智能体系统规模化的科学
专知会员服务
20+阅读 · 2025年12月12日
【EPFL博士论文】大型语言模型时代的协作式智能体
专知会员服务
32+阅读 · 2025年5月16日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
76+阅读 · 2024年8月20日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员