Recent advances in large language model (LLM) have empowered autonomous agents to perform complex tasks that require multi-turn interactions with tools and environments. However, scaling such agent training is limited by the lack of diverse and reliable environments. In this paper, we propose Agent World Model (AWM), a fully synthetic environment generation pipeline. Using this pipeline, we scale to 1,000 environments covering everyday scenarios, in which agents can interact with rich toolsets (35 tools per environment on average) and obtain high-quality observations. Notably, these environments are code-driven and backed by databases, providing more reliable and consistent state transitions than environments simulated by LLMs. Moreover, they enable more efficient agent interaction compared with collecting trajectories from realistic environments. To demonstrate the effectiveness of this resource, we perform large-scale reinforcement learning for multi-turn tool-use agents. Thanks to the fully executable environments and accessible database states, we can also design reliable reward functions. Experiments on three benchmarks show that training exclusively in synthetic environments, rather than benchmark-specific ones, yields strong out-of-distribution generalization. The code is available at https://github.com/Snowflake-Labs/agent-world-model.


翻译:近年来,大型语言模型(LLM)的进展使得自主智能体能够执行需要与工具和环境进行多轮交互的复杂任务。然而,此类智能体训练的规模化受到缺乏多样且可靠环境的限制。本文提出智能体世界模型(AWM),一种完全合成的环境生成流程。利用该流程,我们扩展至覆盖日常场景的1000个环境,智能体可在其中与丰富的工具集(平均每个环境35个工具)交互并获得高质量观测。值得注意的是,这些环境由代码驱动并以数据库为支撑,相比LLM模拟的环境能提供更可靠、一致的状态转移。此外,与从现实环境中收集轨迹相比,它们能实现更高效的智能体交互。为验证该资源的有效性,我们对多轮工具使用智能体进行了大规模强化学习训练。得益于完全可执行的环境和可访问的数据库状态,我们还能设计可靠的奖励函数。在三个基准测试上的实验表明,仅在合成环境中训练(而非特定于基准的环境)能产生强大的分布外泛化能力。代码发布于 https://github.com/Snowflake-Labs/agent-world-model。

0
下载
关闭预览

相关内容

从感知到行动:空间人工智能体与世界模型
专知会员服务
25+阅读 · 2月3日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
从感知到行动:空间人工智能体与世界模型
专知会员服务
25+阅读 · 2月3日
面向大语言模型的智能体化强化学习图景:综述
专知会员服务
55+阅读 · 2025年9月3日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
《大型多模态智能体》综述
专知会员服务
106+阅读 · 2024年2月26日
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员