An Empirical Study of Bugs in Modern LLM Agent Frameworks - 专知论文

会员服务 ·

0

智能体 · 实证研究 · 系统 · 构建 · API ·

An Empirical Study of Bugs in Modern LLM Agent Frameworks

翻译：现代LLM智能体框架中的缺陷实证研究

Xinxue Zhu,Jiacong Wu,Xiaoyu Zhang,Tianlin Li,Yanzhou Mu,Juan Zhai,Chao Shen,Chunrong Fang,Yang Liu

LLM agents have been widely adopted in real-world applications, relying on agent frameworks for workflow execution and multi-agent coordination. As these systems scale, understanding bugs in the underlying agent frameworks becomes critical. However, existing work mainly focuses on agent-level failures, overlooking framework-level bugs. To address this gap, we conduct an empirical study of 998 bug reports from CrewAI and LangChain, constructing a taxonomy of 15 root causes and 7 observable symptoms across five agent lifecycle stages: 'Agent Initialization','Perception', 'Self-Action', 'Mutual Interaction' and 'Evolution'. Our findings show that agent framework bugs mainly arise from 'API misuse', 'API incompatibility', and 'Documentation Desync', largely concentrated in the 'Self-Action' stage. Symptoms typically appear as 'Functional Error', 'Crash', and 'Build Failure', reflecting disruptions to task progression and control flow.

翻译：LLM智能体已在现实应用中广泛部署，其依赖于智能体框架来执行工作流程并实现多智能体协同。随着这些系统规模不断扩大，理解底层智能体框架中的缺陷变得至关重要。然而，现有研究主要关注智能体层面的故障，忽视了框架层面的缺陷。为填补这一空白，我们对来自CrewAI和LangChain的998份缺陷报告进行了实证研究，构建了一个涵盖15种根本原因和7种可观测症状的分类体系，这些缺陷分布于智能体生命周期的五个阶段："智能体初始化"、"感知"、"自主行动"、"交互协作"和"演化适应"。研究发现表明，智能体框架缺陷主要源于"API误用"、"API不兼容"和"文档同步滞后"，且多集中于"自主行动"阶段。缺陷症状通常表现为"功能异常"、"系统崩溃"和"构建失败"，这反映了任务执行流程与控制流的中断现象。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

18+阅读 · 6月4日

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

专知会员服务

20+阅读 · 5月16日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

LLMs与生成式智能体模拟：复杂系统研究的新范式

LLMs与生成式智能体模拟：复杂系统研究的新范式

专知会员服务

28+阅读 · 2025年6月15日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

64+阅读 · 2025年3月25日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

64+阅读 · 2024年3月4日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Survey on Evaluation of LLM-based Agents

Arxiv

0+阅读 · 4月23日

Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees

Arxiv

0+阅读 · 4月15日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

Quine: Realizing LLM Agents as Native POSIX Processes

Arxiv

0+阅读 · 4月9日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 3月23日

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Arxiv

0+阅读 · 3月20日

XAgen: An Explainability Tool for Identifying and Correcting Failures in Multi-Agent Workflows

Arxiv

0+阅读 · 3月4日

Managing Uncertainty in LLM-based Multi-Agent System Operation

Arxiv

0+阅读 · 2月26日

Evaluating and Improving Automated Repository-Level Rust Issue Resolution with LLM-based Agents

Arxiv

0+阅读 · 2月26日

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

6+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

7+阅读 · 6月16日

相关VIP内容

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

18+阅读 · 6月4日

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

超越个体智能：基于LLM的多智能体系统中的协作、故障归因与自演化综述

专知会员服务

20+阅读 · 5月16日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

LLM/智能体作为数据分析师：综述

LLM/智能体作为数据分析师：综述

专知会员服务

38+阅读 · 2025年9月30日

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

基于大语言模型（LLM）的智能体推理框架：从方法到场景的综述

专知会员服务

55+阅读 · 2025年8月26日

LLMs与生成式智能体模拟：复杂系统研究的新范式

LLMs与生成式智能体模拟：复杂系统研究的新范式

专知会员服务

28+阅读 · 2025年6月15日

基于大语言模型的智能体优化研究综述

基于大语言模型的智能体优化研究综述

专知会员服务

64+阅读 · 2025年3月25日

可信赖LLM智能体的研究综述：威胁与应对措施

可信赖LLM智能体的研究综述：威胁与应对措施

专知会员服务

36+阅读 · 2025年3月17日

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

《美国防部对人工智能和 LLM 编写评估因素的信心与偏见》2024最新275页论文

专知会员服务

64+阅读 · 2024年3月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

博弈论视角下的多智能体强化学习综述,129页pdf与76页Slides

专知

12+阅读 · 2022年11月26日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

「博弈论视角下多智能体强化学习」研究综述

「博弈论视角下多智能体强化学习」研究综述

专知

60+阅读 · 2022年4月30日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【机器视觉】表面缺陷检测：机器视觉检测技术

【机器视觉】表面缺陷检测：机器视觉检测技术

产业智能官

25+阅读 · 2018年5月30日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

相关论文

Survey on Evaluation of LLM-based Agents

Arxiv

0+阅读 · 4月23日

Coalition Formation in LLM Agent Networks: Stability Analysis and Convergence Guarantees

Arxiv

0+阅读 · 4月15日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

Quine: Realizing LLM Agents as Native POSIX Processes

Arxiv

0+阅读 · 4月9日

AI-Generated Code Is Not Reproducible (Yet): An Empirical Study of Dependency Gaps in LLM-Based Coding Agents

Arxiv

0+阅读 · 3月23日

A Subgoal-driven Framework for Improving Long-Horizon LLM Agents

Arxiv

0+阅读 · 3月20日

XAgen: An Explainability Tool for Identifying and Correcting Failures in Multi-Agent Workflows

Arxiv

0+阅读 · 3月4日

Managing Uncertainty in LLM-based Multi-Agent System Operation

Arxiv

0+阅读 · 2月26日

Evaluating and Improving Automated Repository-Level Rust Issue Resolution with LLM-based Agents

Arxiv

0+阅读 · 2月26日

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月23日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员