基于大语言模型(LLM)的系统正日益普及。这类系统通过构建可执行的工作流来解决任务,这些工作流交织了 LLM 调用、信息检索、工具调用、代码执行、记忆更新及验证等环节。本文综述了设计与优化此类工作流的最新方法,并将其统称为智能体计算图(Agentic Computation Graphs, ACGs)。 我们根据工作流“结构”确定的时机对现有文献进行分类。此处“结构”是指系统中包含哪些组件或智能体、它们之间的依赖关系,以及信息流动的路径。基于这一视角,我们将相关方法区分为:静态方法(在部署前固定可重用的工作流支架)和动态方法(在执行前或执行过程中,针对特定运行任务选择、生成或修正工作流)。 此外,我们从三个维度进一步组织了既有研究:结构确定的时机、工作流被优化的部分,以及引导优化的评估信号(如任务指标、验证器信号、偏好或基于轨迹的反馈)。同时,我们对可重用的工作流模板特定运行下的实例化图以及执行轨迹进行了明确区分,将可重用的设计决策与特定运行中实际部署的结构及运行时行为分离。 最后,我们提出了一个结构感知评估视角,利用图级属性、执行成本、鲁棒性以及不同输入间的结构变异性,来补充下游任务的评价指标。本文旨在提供清晰的术语体系和统一的框架,以便对新方法进行定位,并为 LLM 智能体工作流优化领域的未来研究提供更具可比性的文献视角及更具可重复性的评估标准。

1 引言 (Introduction)

大语言模型(LLM)系统正超越生成单次提示响应的简单聊天机器人模式,转而越来越多地被集成到能够协调多个跨时序动作的可执行工作流(Executable Workflows)中。所谓工作流,是指为了完成任务而对多个步骤进行的、可执行的组织形式,这些步骤包括 LLM 调用、工具使用、信息检索、代码执行、记忆更新及验证。在实践中,系统可能需要分解任务、调用工具、检索文档、执行代码、更新记忆、验证中间结果并从失败中恢复。例如,一个代码助手可能会检索相关文件、提出修改建议、运行测试,并使用验证器来决定是继续修改还是停止。在多智能体系统(MAS)中,这些动作可能分布在多个专门的智能体上,这些智能体通过定义的通信模式进行交流,该模式规定了智能体之间如何连接以及消息如何流动。 在实际应用中,关键不仅在于单个模型调用的质量,还在于决定了“调用什么、何时调用以及信息如何在调用间流动”的整体工作流结构。此处的工作流结构是指存在的组件或智能体、它们之间的依赖关系以及信息流动的路径。一旦将智能体系统表示为图,我们就可以对其拓扑结构、通信密度、调度、验证点的放置以及成本进行推理。这些设计选择往往会同时影响有效性和效率(Zhang et al., 2025e; Zhou et al., 2025; Li et al., 2025a)。一个薄弱的支架(Scaffold)有时可以通过更好的提示语来挽救,但也可以通过添加验证器(如单元测试阶段或模式检查器)、剪枝冗余通信、改变管理者-执行者层级,或将固定的“一刀切”流水线替换为特定运行时的生成来改进。然而,智能体能力的提升往往伴随着隐藏的结构成本,例如过深的层级、脆弱的控制流以及高额的通信开销。 在本综述中,我们在广义的结构意义上使用“工作流”一词。在这种视角下,无论是固定流水线还是更具自主性的智能体系统,都可以被视为由节点、依赖关系和控制决策构成的可执行组织。其区别在于:有多少结构是在部署前固定的,有多少是为特定运行确定的,或者在执行期间修订的。我们使用智能体计算图(Agentic Computation Graph, ACG)作为以 LLM 为中心的可执行工作流的统一抽象。该术语汇聚了文献中散见于不同名称下的工作:工作流、流水线、编排图、通信图、计划以及代码定义的智能体系统。我们的目标不是为了标新立异而强加术语,而是为了将结构本身作为主要的比较对象。 越来越多的研究工作将工作流设计视为一个优化问题。一些工作在离线状态下搜索可重用的模板(Zhang et al., 2025e; Hu et al., 2025a);另一些工作在固定的支架内优化提示语、示例或协作行为(Khattab et al., 2023; Yang et al., 2023);第三类工作则在执行前或执行过程中,为特定运行生成、选择或编辑工作流(Li et al., 2025b; Zhang et al., 2025d)。这种区分至关重要,因为这些方法优化的工件(Artifacts)各不相同:可重用模板固定支架内的局部行为,或是特定运行中实例化的工作流结构。在这些研究路线中,核心问题不再仅仅是智能体具备什么能力,还包括应该使用何种工作流结构、该结构应在何时确定,以及如何在质量-成本权衡下进行优化。 据我们所知,现有的关注工作流和基础设施的综述多局限于智能体系统生态、工程抽象和编排框架(Yu et al., 2025; Li et al., 2024a)。其他关注工作流规划阶段的综述则侧重于将分解、反思、记忆和外部模块作为智能体规划的组成部分(Huang et al., 2024)。工具学习综述侧重于工具的检索、选择和调用(Xu et al., 2025b)。多智能体综述则按协作机制、通信协议和应用领域组织文献(Chen et al., 2024b; Zhang et al., 2025f)。更广泛的优化综述涵盖了改进 LLM 智能体的多种方式,通常从参数驱动与无参数方法的视角展开(Du et al., 2026; Yue et al., 2026)。尽管这些综述提供了重要基础,但工作流结构的设计通常被视为已知前提,而非主要优化目标。在大多数论文中,图的构建隐含在代码、通信模式或规划器-执行器循环中,并未被视为可搜索、可生成、可编辑或可评估的一等优化对象(First-class Optimization Object)。 现有综述大多覆盖了智能体文献的相邻切片,而非工作流优化本身。表 1 展示了本综述在更广泛图景中的定位,并阐明了其填补的具体空白。为了明确本综述的边界,我们将范围总结如下。

综述范围 (Survey Scope)

本综述研究以 LLM 为中心的智能体系统的工作流优化,其中工作流结构决定了 LLM 调用、检索、工具使用、代码执行、记忆和验证如何组合。 * 静态工作流优化:离线改进可重用模板,包括支架搜索、拓扑设计以及固定结构内的节点级优化。 * 动态工作流优化:在推理阶段通过子图选择、预执行生成或执行中编辑来确定部分实例化图。

我们的主要范畴是那些将工作流结构本身作为优化目标的方法。我们排除纯规划或纯工具使用的论文,除非它们直接改变了工作流结构或提供了工作流相关的评估资产。在全文中,我们使用三个范围标签:**核心(Core)**指直接优化可重用模板或可执行实例化图的方法;**相邻(Adjacent)**指通过路由、团队选择和剪枝方法改变有效工作流的方法;**背景(Background)**指对工作流优化或评估产生实质性影响的框架、数据集和基准测试。

贡献 (Contributions)

本综述做出以下贡献: * 以工作流为中心的公式化表达:我们引入了将 LLM 智能体系统视为**智能体计算图(ACG)的视角,并区分了可重用模板、特定运行的实例化图和执行轨迹。这种区分明确了某种方法优化的是可重用设计、单次运行结构还是实际运行时的行为。 * 结构确定时机的分类法:我们提出了一个分类法,按工作流结构确定的时机进行组织,并通过图确定时间(GDT)图塑性模式(GPM)**进行细化,从而在统一视角下比较固定模板优化、预执行生成/选择以及执行中编辑。 * 跨领域综合分析:我们沿着三个正交轴——优化目标(节点、图或联合)、证据来源(指标、验证器、偏好或轨迹)和更新机制——对文献进行综合,解释了每种方法改变了工作流的哪一部分、由什么证据授权这些改变,以及如何管理质量-成本权衡。 * 评估协议:我们组织了与工作流相关的评估资产,并提出了一个最低报告协议,将下游任务性能与图属性、执行成本、鲁棒性和输入间的结构变异性分离,从而使工作流评估更具可比性和可重复性。

成为VIP会员查看完整内容
0

相关内容

大语言模型是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。2023年,大语言模型及其在人工智能领域的应用已成为全球科技研究的热点,其在规模上的增长尤为引人注目,参数量已从最初的十几亿跃升到如今的一万亿。参数量的提升使得模型能够更加精细地捕捉人类语言微妙之处,更加深入地理解人类语言的复杂性。在过去的一年里,大语言模型在吸纳新知识、分解复杂任务以及图文对齐等多方面都有显著提升。随着技术的不断成熟,它将不断拓展其应用范围,为人类提供更加智能化和个性化的服务,进一步改善人们的生活和生产方式。
微信扫码咨询专知VIP会员