AI coding agents demonstrate strong performance on general-purpose software benchmarks. However, their ability to handle 5G network engineering tasks remains unexplored. We propose SWE-Bench~5G, the first benchmark designed to investigate whether AI coding agents can resolve real-world bugs in 5G core network software. The benchmark collects task instances from three open-source 5G projects, packages each as a self-contained Docker environment with automated fail-to-pass tests, and provides a dual test strategy tailored to the complex runtime dependencies of telecom code. In addition, for instances whose original issues reference 3GPP specification clauses, we construct concise specification context documents, enabling controlled evaluation of whether domain knowledge improves agent performance. Experiments on four LLMs reveal that all models diagnose bugs at rates exceeding 91\%, yet resolve rates remain between 10\% and 30\%, suggesting that both iterative code editing capability and domain knowledge play important roles. The specification injection experiment further confirms that 3GPP excerpts improve resolve rates on specification-dependent bugs, while the gains on generic defensive checks remain limited, indicating that the effect of domain knowledge is conditional on bug type.


翻译:AI编程智能体在通用软件基准测试中展现出强大性能,但其处理5G网络工程任务的能力尚未被探索。我们提出SWE-Bench~5G,这是首个旨在评估AI编程智能体能否解决5G核心网络软件中真实世界错误的基准测试。该基准测试从三个开源5G项目中收集任务实例,将每个实例打包为自包含的Docker环境并配备自动化失败到通过测试,同时提供针对电信代码复杂运行时依赖关系设计的双测试策略。此外,针对原始问题引用了3GPP规范条款的实例,我们构建了简洁的规范上下文文档,从而能够可控地评估领域知识是否提升智能体性能。基于四个大语言模型的实验表明,所有模型诊断错误的成功率超过91%,但修复成功率仅介于10%至30%之间,这表明迭代代码编辑能力与领域知识均发挥重要作用。规范注入实验进一步证实,3GPP摘录可提升规范依赖型错误的修复率,但对通用防御性检查的提升效果有限,这表明领域知识的效果具有错误类型条件性。

0
下载
关闭预览

相关内容

《5G测试平台:探索5G在军事场景中的赋能平台》
专知会员服务
19+阅读 · 2025年11月1日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
【2022新书】人工智能在工业4.0与5G技术中的应用,355页pdf
【Yoshua Bengio】生成式流网络,Generative Flow Networks
专知会员服务
32+阅读 · 2022年3月19日
专知会员服务
50+阅读 · 2021年6月3日
史上最完整的5G介绍PPT
网易智能菌
25+阅读 · 2019年7月12日
报告 | 5G十大细分应用场景研究报告(附PPT图片)
走向智能论坛
19+阅读 · 2019年4月24日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
5G进电厂走到了哪一步?
1号机器人网
15+阅读 · 2019年2月13日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月23日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关资讯
史上最完整的5G介绍PPT
网易智能菌
25+阅读 · 2019年7月12日
报告 | 5G十大细分应用场景研究报告(附PPT图片)
走向智能论坛
19+阅读 · 2019年4月24日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
5G进电厂走到了哪一步?
1号机器人网
15+阅读 · 2019年2月13日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员