While current software agents powered by large language models (LLMs) and agentic reinforcement learning (RL) can boost programmer productivity, their training data (e.g., GitHub issues and pull requests) and environments (e.g., pass-to-pass and fail-to-pass tests) heavily depend on human knowledge or curation, posing a fundamental barrier to superintelligence. In this paper, we present Self-play SWE-RL (SSR), a first step toward training paradigms for superintelligent software agents. Our approach takes minimal data assumptions, only requiring access to sandboxed repositories with source code and installed dependencies, with no need for human-labeled issues or tests. Grounded in these real-world codebases, a single LLM agent is trained via reinforcement learning in a self-play setting to iteratively inject and repair software bugs of increasing complexity, with each bug formally specified by a test patch rather than a natural language issue description. On the SWE-bench Verified and SWE-Bench Pro benchmarks, SSR achieves notable self-improvement (+10.4 and +7.8 points, respectively) and consistently outperforms the human-data baseline over the entire training trajectory, despite being evaluated on natural language issues absent from self-play. Our results, albeit early, suggest a path where agents autonomously gather extensive learning experiences from real-world software repositories, ultimately enabling superintelligent systems that exceed human capabilities in understanding how systems are constructed, solving novel challenges, and autonomously creating new software from scratch.


翻译:尽管当前基于大型语言模型(LLM)和代理强化学习(RL)的软件代理能够提升程序员的生产力,但其训练数据(如GitHub问题和拉取请求)和环境(如通过-未通过测试和故障-通过测试)严重依赖人类知识或人工策划,这构成了实现超级智能的根本性障碍。本文提出自我对弈SWE-RL(SSR),作为迈向超级智能软件代理训练范式的第一步。我们的方法仅需极少量数据假设,只需访问包含源代码和已安装依赖项的沙盒仓库,无需人工标注的问题或测试。以这些真实代码库为基础,通过强化学习在自我对弈场景中训练单一LLM代理,使其能够迭代式地注入并修复复杂度递增的软件缺陷——每个缺陷由测试补丁而非自然语言问题描述正式定义。在SWE-bench Verified和SWE-Bench Pro基准测试中,SSR实现了显著的自我提升(分别提升+10.4和+7.8个百分点),且在整个训练轨迹中持续优于基于人类数据的基线方法,尽管评估使用的是自我对弈中未出现的自然语言问题。尽管结果仍属早期阶段,这为代理能够自主从真实软件仓库中积累广泛学习经验铺平了道路,最终使超级智能系统在理解系统构建方式、解决新挑战以及从零开始自主创建新软件方面超越人类能力。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
大模型如何迭代?北大等《大型语言模型自我进化》综述
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
47+阅读 · 2023年7月11日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
大模型如何迭代?北大等《大型语言模型自我进化》综述
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
47+阅读 · 2023年7月11日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员