AI coding agents demonstrate strong performance on general-purpose software benchmarks. However, their ability to handle 5G network engineering tasks remains unexplored. We propose SWE-Bench~5G, the first benchmark designed to investigate whether AI coding agents can resolve real-world bugs in 5G core network software. The benchmark collects task instances from three open-source 5G projects, packages each as a self-contained Docker environment with automated fail-to-pass tests, and provides a dual test strategy tailored to the complex runtime dependencies of telecom code. In addition, for instances whose original issues reference 3GPP specification clauses, we construct concise specification context documents, enabling controlled evaluation of whether domain knowledge improves agent performance. Experiments on four LLMs reveal that all models diagnose bugs at rates exceeding 91\%, yet resolve rates remain between 10\% and 30\%, suggesting that both iterative code editing capability and domain knowledge play important roles. The specification injection experiment further confirms that 3GPP excerpts improve resolve rates on specification-dependent bugs, while the gains on generic defensive checks remain limited, indicating that the effect of domain knowledge is conditional on bug type.


翻译:暂无翻译

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
通信网络智能体白皮书V1.0,61页pdf
专知会员服务
29+阅读 · 2025年8月1日
6G网络内生AI技术白皮书(1.0)
专知会员服务
31+阅读 · 2024年10月10日
【2022新书】人工智能在工业4.0与5G技术中的应用,355页pdf
6G 物理层AI关键技术白皮书
专知会员服务
29+阅读 · 2022年5月18日
6G物理层AI关键技术白皮书(2022)
专知会员服务
46+阅读 · 2022年3月21日
专知会员服务
50+阅读 · 2021年6月3日
《AI新基建发展白皮书》,国家工信安全中心
专知会员服务
194+阅读 · 2021年1月23日
报告 | 5G十大细分应用场景研究报告(附PPT图片)
走向智能论坛
19+阅读 · 2019年4月24日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
《人工智能转型手册》,吴恩达 著
人工智能学家
21+阅读 · 2018年12月14日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
权威发布:新一代人工智能发展白皮书(2017)
全球人工智能
12+阅读 · 2018年2月25日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月24日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
5+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
9+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
5+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
10+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
通信网络智能体白皮书V1.0,61页pdf
专知会员服务
29+阅读 · 2025年8月1日
6G网络内生AI技术白皮书(1.0)
专知会员服务
31+阅读 · 2024年10月10日
【2022新书】人工智能在工业4.0与5G技术中的应用,355页pdf
6G 物理层AI关键技术白皮书
专知会员服务
29+阅读 · 2022年5月18日
6G物理层AI关键技术白皮书(2022)
专知会员服务
46+阅读 · 2022年3月21日
专知会员服务
50+阅读 · 2021年6月3日
《AI新基建发展白皮书》,国家工信安全中心
专知会员服务
194+阅读 · 2021年1月23日
相关资讯
报告 | 5G十大细分应用场景研究报告(附PPT图片)
走向智能论坛
19+阅读 · 2019年4月24日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
《人工智能转型手册》,吴恩达 著
人工智能学家
21+阅读 · 2018年12月14日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
权威发布:新一代人工智能发展白皮书(2017)
全球人工智能
12+阅读 · 2018年2月25日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
Representation Learning on Network 网络表示学习
全球人工智能
10+阅读 · 2017年10月19日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员