导读

大模型智能体正在从“会回答问题”走向“能在真实系统中完成任务”。它们浏览网页、操作桌面和手机、调用工具、修改代码、控制机器人,并在多轮交互中根据反馈调整行为。决定智能体能力上限的,不再只有模型参数和训练数据,还包括它所处的环境:环境能提供什么观察,允许执行哪些动作,如何更新状态,怎样返回奖励,以及能否持续产生更复杂的新任务。 这意味着,智能体研究正在经历一次从“数据工程”到“环境工程”的转变。传统数据集给出相对静态的输入与标签,模型完成一次预测即可结束;智能体环境则形成观察、行动、状态转移和奖励组成的闭环。早期错误会改变后续状态,环境反馈会影响下一步决策,模型与环境由此成为相互塑造的系统。 中国科学院自动化研究所团队发布的综述 Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application,从完整生命周期出发梳理了智能体环境工程。论文不只统计基准,而是系统回答三个问题:智能体环境具有什么属性和任务类别;环境如何被自动合成并评价质量;环境如何驱动智能体演化,又如何随智能体能力共同演化。 全文建立了一套相当完整的坐标系:用八组属性描述环境,用八个领域组织现有基准;把环境合成划分为符号合成与神经合成;从记忆、工作流、离线轨迹和在线探索四条路径解释智能体演化;再以神经驱动、难度驱动和规模驱动刻画环境演化。最后,论文提出环境即服务、多智能体环境、神经—符号融合、仿真到现实以及环境扩展定律等方向。 本文严格沿用原论文的八章结构,在一万字以内提炼其核心框架、技术分歧与研究判断。配图均截取自原论文,图题已转为中文说明。

论文基本信息

  • 英文题目 Agentic Environment Engineering for Large Language Models: A Survey of Environment Modeling, Synthesis, Evaluation, and Application
  • 中文题目 面向大语言模型的智能体环境工程:环境建模、合成、评估与应用综述
  • 作者 Jiachun Li、Zhuoran Jin、Tianyi Men、Yupu Hao、Kejian Zhu、Lingshuai Wang、Dongqi Huang、Longxiang Wang、Shengjia Hua、Lu Wang、Jinshan Gao、Hongbang Yuan、Ruilin Xu、Kang Liu、Jun Zhao
  • 作者单位 中国科学院自动化研究所复杂系统认知与决策智能重点实验室
  • 论文类型 综述论文
  • arXiv ID 2606.12191
  • 首次提交日期 2026 年 6 月 10 日
  • 研究领域 大语言模型智能体、环境工程、强化学习、世界模型、智能体演化
  • 原文链接 https://arxiv.org/abs/2606.12191

Abstract / 摘要

环境是大语言模型智能体在不同场景中进行交互的系统,也是推动模型能力持续演化的关键基础设施。现有研究已经覆盖网页、图形界面、代码、工具、游戏、具身任务和专业领域,但缺少从环境工程全生命周期出发的系统分类。 论文首先从八组属性和八个任务领域分析代表性环境,解释不同环境的发展路径与核心能力要求。随后,作者把自动环境合成划分为符号合成和神经合成,并从正确性、多样性、复杂度和保真度讨论环境质量评价。 在应用层面,论文从智能体—环境协同演化出发,归纳四条智能体演化路径:以记忆为中心的经验演化、以编排为中心的工作流演化、以轨迹为中心的离线演化,以及以探索为中心的在线演化。环境自身则可通过神经驱动、难度驱动和规模驱动持续升级。最后,作者提出环境即服务、多智能体、神经—符号融合和环境工程科学化等未来方向。 图 1:智能体环境工程的发展时间线。论文将相关工作组织为环境基准、符号环境合成、神经环境合成、智能体演化和环境演化五条脉络。来源:原论文图 1。

1 Introduction / 引言

为什么环境成为智能体能力的关键变量

真实世界交互通常成本高、风险大且难以复现。自动驾驶系统不能在公共道路上随意试错,软件智能体的错误操作可能破坏系统状态,医疗和金融场景还涉及隐私与合规。因此,研究者需要构造可控环境,在接近真实任务的条件下提供工具、状态和奖励,并大规模产生交互轨迹。 环境贯穿智能体生命周期。评测阶段,它检验模型能否完成长程任务;推理阶段,它提供搜索、验证和外部反馈;训练阶段,它生成轨迹并支持强化学习。模型不是环境外部的孤立预测器,而是通过行动改变环境,再从新状态中获得观察。环境质量会直接决定训练信号是否可信、能力是否能够迁移。

论文提出的三个研究问题

第一,如何描述和分类智能体环境。论文既从表示、反馈和交互机制等属性刻画环境,也从 GUI、深度研究、具身、游戏、工具、代码、专业领域和跨领域任务组织基准。 第二,如何自动构造并评价环境。作者区分符号合成和神经合成,前者强调可执行规则与可靠反馈,后者通过世界模型学习动态;质量评价则不能只看任务能否运行,还要考察环境覆盖、难度与真实程度。 第三,环境如何支持智能体与环境的闭环演化。环境既是积累经验、优化工作流、合成轨迹和在线探索的载体,也应根据智能体能力改变自身难度和分布。 图 2:综述的主要内容分类。上半部分按八个任务领域组织环境,下半部分给出符号合成与神经合成的细分类。来源:原论文图 2。

2 Preliminaries / 预备知识

环境、智能体与交互目标

论文将环境形式化为部分可观测马尔可夫决策过程,包括状态空间、动作空间、状态转移、奖励函数、观察空间与观察函数以及折扣因子。智能体并不一定直接看到完整状态,而是依据历史观察和动作形成策略,目标是在持续交互中最大化期望累计回报。 与传统强化学习模拟器相比,智能体环境面向以语言模型为核心的开放式决策系统。观察可以是文本、图像、网页或传感器信号,动作可以是自然语言、代码、工具调用或物理控制。动作空间更开放,任务约束更复杂,环境还需要处理无效指令、外部工具失败和长程状态变化。 环境与智能体必须相互对齐。环境过于简单,模型会通过捷径获得高分;反馈错误,模型会学到错误策略;难度远高于当前能力,则几乎无法产生有效学习信号。环境工程的目标并非单纯追求逼真,而是在可执行、可学习、可验证和可扩展之间建立平衡。

从数据工程走向环境工程

数据工程通常围绕固定样本展开:强模型生成轨迹,经过标注、筛选后用于更新目标模型。数据一旦生成便相对静态,难以及时适应模型能力变化。 环境工程则形成在线闭环。智能体执行动作后,环境更新状态并产生新观察与奖励;新的状态又改变后续决策和数据分布。训练材料不再是预先封装的样本,而是交互过程中动态生成的轨迹。环境还能根据失败模式重新出题,使训练从被动模仿转向主动探索。 图 3:数据工程与环境工程的区别。数据工程主要处理静态轨迹,环境工程围绕观察、行动、状态和奖励形成持续更新的交互闭环。来源:原论文图 4。

3 Environment Attribute / 环境属性

八组属性构成统一描述空间

论文用八组相对属性描述环境。符号与神经关注状态转移由显式程序还是学习模型生成;开环与闭环区分预先执行完整计划和根据反馈持续重规划;在线与离线区分实时交互和基于已有轨迹预测;马尔可夫与部分可观测说明智能体能否获得完整状态。 另外四组属性是:确定与非确定,即相同行动是否必然产生相同结果;离散与连续,即动作和状态是否来自有限集合;单模态与多模态,即观察是否融合文本、图像、视频、音频等信息;单智能体与多智能体,即环境中是否存在相互影响的多个决策主体。 这些属性不是简单标签,而会改变学习问题。闭环环境要求模型及时修正计划;部分可观测环境需要记忆和状态估计;随机环境需要处理不确定性;多智能体环境还引入竞争、合作、信用分配和非平稳性。 图 4:智能体环境的八组核心属性,包括符号与神经、开环与闭环、在线与离线、完全与部分可观测、确定与非确定、离散与连续、单模态与多模态、单智能体与多智能体。来源:原论文图 5。

两个重要判断

其一,现有环境仍以单智能体为主,难以模拟真实组织中的协作、博弈与角色分工。多智能体并非简单增加模型数量,而是让环境转为由多个策略共同塑造的动态系统。 其二,符号环境和神经环境各有明显短板。符号系统可靠、可解释、易验证,但设计成本高且扩展有限;神经系统生成能力强、覆盖面广,却可能出现不一致、幻觉和不可控反馈。后续环境基础设施需要融合两者。

4 Environment Domain / 环境领域

图形界面与深度研究

GUI 环境检验智能体在桌面、移动端和网页中的感知、定位与操作能力。任务从点击单个元素逐渐发展到跨应用、长流程和高分辨率界面操作。核心难点是视觉定位、状态跟踪、错误恢复与真实软件依赖。 深度研究环境覆盖信息搜索、多源推理和研究报告写作。智能体不仅要找到网页,还要识别证据质量、处理来源冲突并形成可追溯结论。评价因此从“是否检索到答案”扩展为过程可靠性、引用质量和综合分析能力。

具身、游戏与工具

具身环境包括空间导航、物理操作和长程规划,要求智能体理解空间、物体状态和物理约束。游戏环境进一步提供开放世界、谜题、社会推理、冒险任务和策略管理等场景,适合研究探索、记忆、规划和多智能体行为。 工具环境关注传统 API、用户模拟工具以及基于 MCP 的工具生态。困难不只是选择正确工具,还包括参数构造、调用顺序、异常处理和跨工具组合。工具越开放,环境越需要可靠的权限、状态和奖励设计。

代码、专业领域与跨领域环境

代码环境覆盖生成、理解、验证和调试。可执行测试使代码任务天然拥有较强验证信号,但仓库级修改仍涉及依赖、编译、测试和长程因果关系。专业领域环境则面向医疗、科学和金融,需要更严格的知识、证据与风险控制。 跨领域环境试图用统一接口容纳多种任务,检验智能体能否迁移工具使用、规划和纠错能力。论文认为,环境基准正从静态、窄领域评测,走向可执行、多模态、长程和异构场景;未来设计必须同时保证真实性、多样性、可控性与可验证性。

5 Environment Synthesis / 环境合成

符号合成

符号环境用代码、规则和可执行接口描述状态转移与奖励。论文将其分为三类。任务驱动合成把已有数学、科学、代码或逻辑数据封装成交互任务;现实驱动合成对网页、数据库、GUI 或游戏等真实系统进行简化与映射;从零合成则让生成模型创造任务、工具和规则,再通过执行或验证器检查内部逻辑。 三类方法的自由度依次增加,验证压力也同步增大。任务驱动方法最容易获得标准答案,却受已有数据限制;现实驱动方法更接近应用,但基础设施复杂;从零合成能够扩大环境空间,却容易生成不可执行任务、错误奖励和相互矛盾的规则。 图 5:符号环境合成的三种范式:任务驱动、现实驱动和从零合成。由左至右,生成自由度提高,同时需要更强的验证逻辑。来源:原论文图 7。

神经合成

神经环境通过学习模型近似环境动态。像素级建模直接预测图像或视频,保真度高但计算昂贵、信息冗余;词语级建模用自然语言或结构化文本描述状态,便于推理和工具集成,但压缩过程可能丢失视觉细节;潜表示级建模在特征空间预测未来状态,兼顾效率与语义,却依赖表示质量且解释性较弱。 世界模型是神经合成的重要载体。它可以预测动作后的状态、生成交互轨迹,并让智能体在真正执行前进行模拟规划。但模型自身的误差会被当作环境规律,长程滚动还会累积偏差。因此,跨表示对齐、长期一致性与不确定性估计是核心问题。 图 6:神经环境合成的三种表示层级:像素级、词语级和潜表示级,它们在保真度、抽象程度与计算效率之间形成不同权衡。来源:原论文图 8。

环境质量控制与评价

论文提出四个互补维度。正确性检查任务能否执行、状态转移是否有效、奖励是否可靠;多样性衡量任务、状态、工具和语言表达是否具有非冗余覆盖;复杂度评估环境能否形成足够长的依赖、组合操作和挑战梯度;保真度衡量合成环境与真实世界在语义、交互和动态上的一致程度。 目前正确性评价最成熟,可使用单元测试、规则、沙箱执行、专家模型或人工审查。多样性、复杂度和保真度仍缺乏统一标准。一个环境即使可运行,也可能过于模板化;即使视觉逼真,也可能拥有错误的交互逻辑。环境评价必须从单实例通过率走向分布级分析。

6 Agent Evolution / 智能体演化

以记忆为中心的经验演化

智能体可以保存完整交互轨迹、从多条轨迹中抽象脚本,或把经验组织成可调用技能。三种记忆粒度分别提供具体案例、通用流程与模块化能力。关键问题是如何检索真正相关的经验,如何淘汰过时或错误记忆,以及如何避免记忆库持续膨胀。

以编排为中心的工作流演化

工作流把多步任务和多个角色组织成图结构。固定工作流由人预先定义,稳定但迁移性有限;自动工作流由编排器动态分解任务、选择工具或代理;演化工作流则根据环境反馈持续调整角色、工具和拓扑。工作流演化把能力提升从单个模型参数扩展到系统组织方式。

以轨迹为中心的离线演化

离线演化包含任务合成、轨迹合成和轨迹精炼。任务可以从已有资源转换、从答案反向生成,或依据树和图等结构构造;轨迹可通过顺序交互、树搜索、增强或模型模拟获得;最后再用过滤、纠错和迭代精炼提高质量。其优势是训练稳定、数据可复用,局限是分布固定且容易继承生成模型偏差。

以探索为中心的在线演化

在线演化让智能体直接在环境中探索,并通过强化学习更新策略。研究重点包括推理结构、训练奖励和算法优化:模型如何把思考与行动交织起来,如何获得步骤级奖励,如何在长轨迹中完成信用分配,以及如何减少无效探索。 在线方法更能适应动态环境,但交互成本高、奖励稀疏,早期错误还会改变后续状态。环境必须提供可恢复的执行机制、细粒度反馈和合理课程,否则训练很容易不稳定。 图 7:环境驱动智能体演化的四条路径:记忆经验、工作流编排、离线轨迹和在线探索。来源:原论文图 9。

7 Environment Evolution / 环境演化

神经驱动演化

神经驱动环境通过自博弈或世界模型改变内部动态。自博弈让对手或出题者与智能体同步提高;世界模型则学习状态转移,为规划和训练生成新轨迹。它能够扩展环境变化,却必须防止模拟器偏差被策略利用。

难度驱动演化

难度驱动方法依据智能体能力调整任务分布。显式课程使用准确率、奖励、遗憾或好奇度等信号控制难度;隐式课程通过任务生成、环境构造或人工设计,使训练样本逐渐靠近智能体能力边界。过易环境没有增益,过难环境没有有效反馈,最有价值的是略高于当前能力的区域。

规模驱动演化

规模驱动方法从两层扩展环境。场景级扩展在固定范式中增加工具、界面、代码库和游戏任务;环境级扩展则引入不同应用设置与结构。真正的规模化不仅是实例数量增加,还需要扩大状态、规则、交互模式和能力需求的覆盖。 图 8:环境演化的三类范式:神经驱动、难度驱动与规模驱动。来源:原论文图 10。

8 Challenges & Future Directions / 挑战与未来方向

环境即服务

当前环境接口、动作空间、奖励和部署方式高度异构,研究者往往需要为每个环境单独适配。环境即服务主张把环境封装为云端服务,通过统一 API 提供状态、动作和反馈,降低依赖配置成本,并改善复现与大规模并行训练。

环境属性持续升级

现有环境多为静态、短程、封闭和单模态,而真实系统是动态、长程、开放且多模态的。未来环境需要处理持续变化的任务、跨时间影响和新工具,并融合文本、视觉、音频与传感器信息。这会显著提高记忆、规划和信用分配难度。

从单智能体走向多智能体

多智能体环境中的每个参与者都会改变其他智能体面对的分布,环境因此具有非平稳性。未来需要研究合作、竞争、沟通、集体奖励和涌现行为,并建立能够稳定复现社会互动的评价机制。

神经—符号环境

纯神经环境表达力强但不透明,纯符号环境可靠却难以覆盖复杂世界。理想的混合环境应由神经模型生成丰富观察和候选动态,同时由符号约束、程序执行和验证器保证关键规则、奖励及安全边界。

缩小仿真到现实差距

合成环境可能存在事实错误、逻辑不一致、任务简化、分布单一和保真度不足。智能体在模拟器中获得高分,不等于能够处理真实系统的延迟、用户行为和界面变化。需要以现实日志校准环境,并对迁移性能而非模拟分数进行评价。

智能体与环境协同演化

环境不应一直固定。它可以根据智能体弱点生成新任务、延长交互链或改变反馈规则;智能体的进步又反过来暴露环境漏洞。二者从单向适应转为双向协同演化,是构建持续学习系统的关键。

统一离线与在线学习

离线训练数据高效、稳定,却容易产生分布错配;在线训练适应性强,但交互昂贵且奖励稀疏。未来应把专家轨迹、教师反馈和真实探索结合起来。多轮环境中尤其需要处理早期错误改变后续状态的问题,避免教师监督与实际轨迹脱节。

建立环境工程的科学基础

环境构造目前仍以经验为主。作者提出三个基础问题:环境数量、多样性、交互长度和复杂度如何影响能力形成;什么样的环境是可学习的;不同环境会培养哪些能力。若能建立环境扩展定律和“环境—能力”映射,就可以针对记忆、分解、世界建模或战略规划等目标定向设计环境。 总体而言,这篇综述把环境从智能体研究的配套设施提升为独立的工程与科学对象。下一阶段竞争可能不只是更大的模型,而是谁能构建更可靠、更丰富、能随能力成长的环境生态。

原文信息

成为VIP会员查看完整内容
1

相关内容

大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代,用户可通过开源或开放API/工具等形式进行模型零样本/小样本数据学习,以实现更优的识别、理解、决策、生成效果和更低成本的开发部署方案。
VIP会员
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
14+阅读 · 今天7:47
战场人工智能:增强陆地作战能力的发现与要求
专知会员服务
3+阅读 · 今天7:37
以人工智能为中心的指挥控制
专知会员服务
3+阅读 · 今天7:14
《基于深度强化学习的反无人机技术研究》178页
专知会员服务
13+阅读 · 6月10日
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
14+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
6+阅读 · 6月10日
微信扫码咨询专知VIP会员