LLM-based agent systems are emerging as a new software paradigm and have been widely adopted across diverse domains such as medicine, robotics, and programming. However, maintaining these systems requires substantial effort, as they are inevitably prone to bugs and continually evolve to meet changing external requirements. Therefore, automatically resolving agent issues (i.e., bug reports or feature requests) is a crucial and challenging task. While recent software engineering (SE) agents (e.g., SWE-agent) have shown promise in addressing issues in traditional software systems, it remains unclear how effectively they can resolve real-world issues in agent systems, which differ significantly from traditional software. To fill this gap, we first manually analyze 201 real-world agent issues and identify common categories of agent issues. We then spend 500 person-hours constructing AGENTISSUE-BENCH, a reproducible benchmark comprising 50 agent issue resolution tasks (each with an executable environment and failure-triggering tests). We further evaluate state-of-the-art SE agents on AGENTISSUE-BENCH and reveal their limited effectiveness (i.e., with only 3.33% - 12.67% resolution rates). These results underscore the unique challenges of maintaining agent systems compared to traditional software, highlighting the need for further research to develop advanced SE agents for resolving agent issues. Data and code are available at https://alfin06.github.io/AgentIssue-Bench-Leaderboard/#/ .


翻译:基于大语言模型(LLM)的智能体系统正作为一种新兴的软件范式出现,并已在医学、机器人和编程等不同领域得到广泛应用。然而,维护这些系统需要付出巨大努力,因为它们不可避免地容易出现缺陷,并且需要持续演进以满足不断变化的外部需求。因此,自动解决智能体问题(即错误报告或功能请求)是一项至关重要且具有挑战性的任务。尽管近期的软件工程(SE)智能体(例如SWE-agent)在解决传统软件系统的问题方面展现出潜力,但它们在多大程度上能有效解决与现实世界智能体系统相关的问题仍不明确,而这类系统与传统软件存在显著差异。为填补这一空白,我们首先手动分析了201个现实世界中的智能体问题,并识别出智能体问题的常见类别。随后,我们投入500人时构建了AGENTISSUE-BENCH,这是一个可复现的基准测试集,包含50项智能体问题解决任务(每项任务均配有可执行环境及可触发失败的测试)。我们进一步在AGENTISSUE-BENCH上评估了最先进的软件工程智能体,并揭示了其有限的有效性(即仅获得3.33%至12.67%的解决率)。这些结果突显了维护智能体系统相较于传统软件所面临的独特挑战,强调了需要进一步研究以开发更先进的软件工程智能体来解决智能体问题。数据和代码可在 https://alfin06.github.io/AgentIssue-Bench-Leaderboard/#/ 获取。

0
下载
关闭预览

相关内容

Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
163+阅读 · 2019年10月12日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
12+阅读 · 2021年3月24日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
11+阅读 · 2018年9月28日
Arxiv
14+阅读 · 2018年5月15日
VIP会员
相关VIP内容
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关论文
Arxiv
12+阅读 · 2021年3月24日
Arxiv
23+阅读 · 2018年10月1日
Arxiv
11+阅读 · 2018年9月28日
Arxiv
14+阅读 · 2018年5月15日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员