SWE-Bench 5G: Benchmarking AI Coding Agents on Telecom Network Engineering Tasks - 专知论文

会员服务 ·

0

基准 · 基准测试 · AI · 编程 · AI编程 ·

SWE-Bench 5G: Benchmarking AI Coding Agents on Telecom Network Engineering Tasks

翻译：SWE-Bench 5G：面向电信网络工程任务的AI编程智能体基准测试

Jiao Chen,Jianhua Tang,Xiaotong Yang,Zuohong Lv

AI coding agents demonstrate strong performance on general-purpose software benchmarks. However, their ability to handle 5G network engineering tasks remains unexplored. We propose SWE-Bench~5G, the first benchmark designed to investigate whether AI coding agents can resolve real-world bugs in 5G core network software. The benchmark collects task instances from three open-source 5G projects, packages each as a self-contained Docker environment with automated fail-to-pass tests, and provides a dual test strategy tailored to the complex runtime dependencies of telecom code. In addition, for instances whose original issues reference 3GPP specification clauses, we construct concise specification context documents, enabling controlled evaluation of whether domain knowledge improves agent performance. Experiments on four LLMs reveal that all models diagnose bugs at rates exceeding 91\%, yet resolve rates remain between 10\% and 30\%, suggesting that both iterative code editing capability and domain knowledge play important roles. The specification injection experiment further confirms that 3GPP excerpts improve resolve rates on specification-dependent bugs, while the gains on generic defensive checks remain limited, indicating that the effect of domain knowledge is conditional on bug type.

翻译：AI编程智能体在通用软件基准测试中展现出强大性能，但其处理5G网络工程任务的能力尚未被探索。我们提出SWE-Bench~5G，这是首个旨在评估AI编程智能体能否解决5G核心网络软件中真实世界错误的基准测试。该基准测试从三个开源5G项目中收集任务实例，将每个实例打包为自包含的Docker环境并配备自动化失败到通过测试，同时提供针对电信代码复杂运行时依赖关系设计的双测试策略。此外，针对原始问题引用了3GPP规范条款的实例，我们构建了简洁的规范上下文文档，从而能够可控地评估领域知识是否提升智能体性能。基于四个大语言模型的实验表明，所有模型诊断错误的成功率超过91%，但修复成功率仅介于10%至30%之间，这表明迭代代码编辑能力与领域知识均发挥重要作用。规范注入实验进一步证实，3GPP摘录可提升规范依赖型错误的修复率，但对通用防御性检查的提升效果有限，这表明领域知识的效果具有错误类型条件性。

0

相关内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

专知会员服务

29+阅读 · 2025年11月19日

《5G测试平台：探索5G在军事场景中的赋能平台》

《5G测试平台：探索5G在军事场景中的赋能平台》

专知会员服务

19+阅读 · 2025年11月1日

AI智能体基础设施

AI智能体基础设施

专知会员服务

43+阅读 · 2025年7月12日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

【2022新书】人工智能在工业4.0与5G技术中的应用，355页pdf

【2022新书】人工智能在工业4.0与5G技术中的应用，355页pdf

专知会员服务

109+阅读 · 2022年7月6日

【Yoshua Bengio】生成式流网络，Generative Flow Networks

【Yoshua Bengio】生成式流网络，Generative Flow Networks

专知会员服务

32+阅读 · 2022年3月19日

人工智能在5G系统中应用综述

专知会员服务

50+阅读 · 2021年6月3日

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

专知会员服务

36+阅读 · 2020年3月12日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

史上最完整的5G介绍PPT

史上最完整的5G介绍PPT

网易智能菌

25+阅读 · 2019年7月12日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

报告 | 5G十大细分应用场景研究报告（附PPT图片）

报告 | 5G十大细分应用场景研究报告（附PPT图片）

走向智能论坛

19+阅读 · 2019年4月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

5G进电厂走到了哪一步？

5G进电厂走到了哪一步？

1号机器人网

15+阅读 · 2019年2月13日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向5G移动通信系统的D2D可靠多播通信关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向5G频谱共享的群智频谱数据统计学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于节点使用概率的通信网络性能研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于无线传感器网络的智能电网状态监测系统信息安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

NeuralEmu: in situ Measurement-Driven, ML-based, High-Fidelity 5G Network Emulation

Arxiv

0+阅读 · 4月28日

ExAI5G: A Logic-Based Explainable AI Framework for Intrusion Detection in 5G Networks

Arxiv

0+阅读 · 4月20日

ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Arxiv

0+阅读 · 4月7日

Arxiv

0+阅读 · 3月23日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

NetArena: Dynamic Benchmarks for AI Agents in Network Automation

Arxiv

0+阅读 · 3月13日

WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks

Arxiv

0+阅读 · 2月28日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月24日

SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents

Arxiv

0+阅读 · 2月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

EdgeRunner AI：在本地设备关键军事任务中实现GPT-5级性能表现（附论文）

专知会员服务

29+阅读 · 2025年11月19日

《5G测试平台：探索5G在军事场景中的赋能平台》

《5G测试平台：探索5G在军事场景中的赋能平台》

专知会员服务

19+阅读 · 2025年11月1日

AI智能体基础设施

AI智能体基础设施

专知会员服务

43+阅读 · 2025年7月12日

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

当大型语言模型智能体与6G网络相遇：感知、基准和对齐

专知会员服务

54+阅读 · 2024年2月4日

【2022新书】人工智能在工业4.0与5G技术中的应用，355页pdf

【2022新书】人工智能在工业4.0与5G技术中的应用，355页pdf

专知会员服务

109+阅读 · 2022年7月6日

【Yoshua Bengio】生成式流网络，Generative Flow Networks

【Yoshua Bengio】生成式流网络，Generative Flow Networks

专知会员服务

32+阅读 · 2022年3月19日

人工智能在5G系统中应用综述

专知会员服务

50+阅读 · 2021年6月3日

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

专知会员服务

36+阅读 · 2020年3月12日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

MediaPipe：Google Research 开源的跨平台多媒体机器学习模型应用框架

AI100

17+阅读 · 2019年9月14日

史上最完整的5G介绍PPT

史上最完整的5G介绍PPT

网易智能菌

25+阅读 · 2019年7月12日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

报告 | 5G十大细分应用场景研究报告（附PPT图片）

报告 | 5G十大细分应用场景研究报告（附PPT图片）

走向智能论坛

19+阅读 · 2019年4月24日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

5G进电厂走到了哪一步？

5G进电厂走到了哪一步？

1号机器人网

15+阅读 · 2019年2月13日

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

YOLOv3目标检测有了TensorFlow实现，可用自己的数据来训练

量子位

19+阅读 · 2019年1月12日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

深度 | 级联MobileNet-V2实现人脸关键点检测（附训练源码）

机器之心

15+阅读 · 2018年3月11日

相关论文

NeuralEmu: in situ Measurement-Driven, ML-based, High-Fidelity 5G Network Emulation

Arxiv

0+阅读 · 4月28日

ExAI5G: A Logic-Based Explainable AI Framework for Intrusion Detection in 5G Networks

Arxiv

0+阅读 · 4月20日

ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments

Arxiv

0+阅读 · 4月7日

Arxiv

0+阅读 · 3月23日

WirelessBench: A Tolerance-Aware LLM Agent Benchmark for Wireless Network Intelligence

Arxiv

0+阅读 · 3月22日

NetArena: Dynamic Benchmarks for AI Agents in Network Automation

Arxiv

0+阅读 · 3月13日

WirelessAgent++: Automated Agentic Workflow Design and Benchmarking for Wireless Networks

Arxiv

0+阅读 · 2月28日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月24日

SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents

Arxiv

0+阅读 · 2月23日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

下一代异构移动网络中分布式云存储的设计与研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向5G移动通信系统的D2D可靠多播通信关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向5G频谱共享的群智频谱数据统计学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于节点使用概率的通信网络性能研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向智能穿戴设备的三维图形网格简化与渐进显示方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

5G极化码译码算法理论与实现关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于无线传感器网络的智能电网状态监测系统信息安全关键技术研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员