LLM-powered coding agents are redefining how real-world software is developed. To drive the research towards better coding agents, we require challenging benchmarks that can rigorously evaluate the ability of such agents to perform various software engineering tasks. However, popular coding benchmarks such as HumanEval and SWE-Bench focus on narrowly scoped tasks such as competition programming and patch generation. In reality, software engineers have to handle a broader set of tasks for real-world software development. To address this gap, we propose OmniCode, a novel software engineering benchmark that contains a broader and more diverse set of task categories beyond code or patch generation. Overall, OmniCode contains 1794 tasks spanning three programming languages (Python, Java, and C++) and four key categories: bug fixing, test generation, code review fixing, and style fixing. In contrast to prior software engineering benchmarks, the tasks in OmniCode are (1) manually validated to eliminate ill-defined problems, and (2) synthetically crafted or recently curated to avoid data leakage issues, presenting a new framework for synthetically generating diverse software tasks from limited real-world data. We evaluate OmniCode with popular agent frameworks such as SWE-Agent and show that while they may perform well on bug fixing for Python, they fall short on tasks such as Test Generation and in languages such as C++ and Java. For instance, SWE-Agent achieves a maximum of 20.9% with DeepSeek-V3.1 on Java Test Generation tasks. OmniCode aims to serve as a robust benchmark and spur the development of agents that can perform well across different aspects of software development. Code and data are available at https://github.com/seal-research/OmniCode.


翻译:基于大语言模型的编程智能体正在重新定义现实世界软件的开发方式。为推进更优编程智能体的研究,我们需要具有挑战性的基准来严格评估此类智能体执行各类软件工程任务的能力。然而,当前流行的编程基准(如HumanEval和SWE-Bench)主要聚焦于竞赛编程和补丁生成等范围狭窄的任务。现实中,软件工程师必须处理更广泛的任务以支持实际软件开发。为弥补这一差距,我们提出了OmniCode——一个新颖的软件工程基准,其包含超越代码或补丁生成的更广泛、更多样化的任务类别。总体而言,OmniCode涵盖1794个任务,涉及三种编程语言(Python、Java和C++)及四个关键类别:缺陷修复、测试生成、代码审查修复和风格修复。与先前的软件工程基准相比,OmniCode中的任务具有以下特点:(1)经过人工验证以消除定义不清的问题;(2)通过合成构建或近期整理以避免数据泄露问题,这为从有限真实数据中合成生成多样化软件任务提供了新框架。我们使用SWE-Agent等主流智能体框架对OmniCode进行评估,结果表明:尽管这些框架在Python缺陷修复任务上表现良好,但在测试生成等任务以及C++和Java语言任务上仍存在不足。例如,SWE-Agent在Java测试生成任务上使用DeepSeek-V3.1的最高成功率仅为20.9%。OmniCode旨在成为一个稳健的基准,并推动能够跨软件开发不同方面均表现优异的智能体的发展。代码与数据公开于https://github.com/seal-research/OmniCode。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
【智能制造】智能制造的核心——智能决策
产业智能官
12+阅读 · 2018年4月11日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
41+阅读 · 2025年8月18日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
走向通用虚拟智能体
专知会员服务
74+阅读 · 2023年11月26日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员