Even though demonstrating extraordinary capabilities in code generation and software issue resolving, AI agents' capabilities in the full software DevOps cycle are still unknown. Different from pure code generation, handling the DevOps cycle in real-world software, including developing, deploying, and managing, requires analyzing large-scale projects, understanding dynamic program behaviors, leveraging domain-specific tools, and making sequential decisions. However, existing benchmarks focus on isolated problems and lack environments and tool interfaces for DevOps. We introduce DevOps-Gym, the first end-to-end benchmark for evaluating AI agents across core DevOps workflows: build and configuration, monitoring, issue resolving, and test generation. DevOps-Gym includes 700+ real-world tasks collected from 30+ projects in Java and Go. We develop a semi-automated data collection mechanism with rigorous and non-trivial expert efforts in ensuring the task coverage and quality. Our evaluation of state-of-the-art models and agents reveals fundamental limitations: they struggle with issue resolving and test generation in Java and Go, and remain unable to handle new tasks such as monitoring and build and configuration. These results highlight the need for essential research in automating the full DevOps cycle with AI agents.


翻译:尽管在代码生成和软件问题解决方面展现出非凡能力,AI智能体在完整软件DevOps周期中的能力仍属未知。与纯代码生成不同,处理现实世界软件中的DevOps周期(包括开发、部署和管理)需要分析大规模项目、理解动态程序行为、利用领域特定工具以及进行序列决策。然而,现有基准主要关注孤立问题,且缺乏面向DevOps的环境与工具接口。我们提出DevOps-Gym——首个用于评估AI智能体在核心DevOps工作流(构建与配置、监控、问题解决和测试生成)中表现的端到端基准。DevOps-Gym包含从30余个Java与Go项目中收集的700余项现实任务。我们开发了半自动化数据收集机制,通过严格且非平凡的专家努力确保任务覆盖范围与质量。对前沿模型与智能体的评估揭示了其根本性局限:它们在Java和Go项目的问题解决与测试生成任务中表现不佳,且仍无法处理监控、构建与配置等新型任务。这些结果凸显了利用AI智能体实现完整DevOps周期自动化所需的关键研究方向。

0
下载
关闭预览

相关内容

DevOps是软件开发、运维和质量保证三个部门之间的沟通、协作和集成所采用的流程、方法和体系的一个集合。 它是人们为了及时生产软件产品或服务,以满足某个业务目标,对开发与运维之间相互依存关系的一种新的理解。
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
智能体适应
专知会员服务
22+阅读 · 2025年12月11日
AI智能体基础设施
专知会员服务
39+阅读 · 2025年7月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
【新书】使用AI智能体构建应用程序
专知会员服务
61+阅读 · 2024年10月26日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《深度学习代码智能》综述、基准和工具集
专知会员服务
56+阅读 · 2024年1月2日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
智能体适应
专知会员服务
22+阅读 · 2025年12月11日
AI智能体基础设施
专知会员服务
39+阅读 · 2025年7月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
【新书】使用AI智能体构建应用程序
专知会员服务
61+阅读 · 2024年10月26日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《深度学习代码智能》综述、基准和工具集
专知会员服务
56+阅读 · 2024年1月2日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员