SWE-Universe: Scale Real-World Verifiable Environments to Millions - 专知论文

会员服务 ·

0

构建 · 智能体 · 大学 · 模式识别 · 软件 ·

SWE-Universe: Scale Real-World Verifiable Environments to Millions

翻译：SWE-Universe：将真实世界可验证环境扩展至百万规模

Mouxiang Chen,Lei Zhang,Yunlong Feng,Xuwu Wang,Wenting Zhao,Ruisheng Cao,Jiaxi Yang,Jiawei Chen,Mingze Li,Zeyao Ma,Hao Ge,Zongmeng Zhang,Zeyu Cui,Dayiheng Liu,Jingren Zhou,Jianling Sun,Junyang Lin,Binyuan Hui

from arxiv, 13 pages

We propose SWE-Universe, a scalable and efficient framework for automatically constructing real-world software engineering (SWE) verifiable environments from GitHub pull requests (PRs). To overcome the prevalent challenges of automatic building, such as low production yield, weak verifiers, and prohibitive cost, our framework utilizes a building agent powered by an efficient custom-trained model. This agent employs iterative self-verification and in-loop hacking detection to ensure the reliable generation of high-fidelity, verifiable tasks. Using this method, we scale the number of real-world multilingual SWE environments to a million scale (807,693). We demonstrate the profound value of our environments through large-scale agentic mid-training and reinforcement learning. Finally, we applied this technique to Qwen3-Max-Thinking and achieved a score of 75.3% on SWE-Bench Verified. Our work provides both a critical resource and a robust methodology to advance the next generation of coding agents.

翻译：我们提出SWE-Universe，一个可扩展且高效的框架，用于从GitHub拉取请求（PR）中自动构建真实世界软件工程（SWE）可验证环境。为克服自动构建中普遍存在的生产产出率低、验证器弱及成本高昂等挑战，本框架采用由高效定制训练模型驱动的构建智能体。该智能体通过迭代式自我验证与循环内黑客检测，确保可靠生成高保真度的可验证任务。利用此方法，我们将真实世界多语言SWE环境的数量扩展至百万级别（807,693个）。我们通过大规模智能体中期训练与强化学习，证明了所构建环境的深远价值。最终，我们将此技术应用于Qwen3-Max-Thinking模型，并在SWE-Bench Verified基准测试中取得了75.3%的得分。本工作为推进下一代编码智能体的发展提供了关键资源与稳健方法论。

0

相关内容

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

韩国学者发布《元宇宙中的区块链》综述，Blockchain for the Metaverse: A Review

韩国学者发布《元宇宙中的区块链》综述，Blockchain for the Metaverse: A Review

专知会员服务

46+阅读 · 2022年3月22日

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

专知会员服务

45+阅读 · 2022年3月8日

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

专知会员服务

49+阅读 · 2022年2月19日

71页PDF，Intro to the Metaverse（元宇宙概念发展透析），Newzoo Trend Report 2021

71页PDF，Intro to the Metaverse（元宇宙概念发展透析），Newzoo Trend Report 2021

专知会员服务

22+阅读 · 2022年2月19日

香港中文大学（深圳）发表【元宇宙】论文（ACM MM 2021） Metaverse for Social Good: A University Campus Prototype，提出一个三层的元宇宙架构：基础设施、交互和生态系统 | 附讲解视频链接

香港中文大学（深圳）发表【元宇宙】论文（ACM MM 2021） Metaverse for Social Good: A University Campus Prototype，提出一个三层的元宇宙架构：基础设施、交互和生态系统 | 附讲解视频链接

专知会员服务

35+阅读 · 2022年2月13日

《元宇宙：关于技术奇点、虚拟生态系统和研究议程的完整综述》66页PDF、149页PPT，元宇宙最新综述论文：韩国KAIST、港科大、中科大、赫尔辛基大学等，全面解读元宇宙概念、发展历史、关键技术、生态体系

《元宇宙：关于技术奇点、虚拟生态系统和研究议程的完整综述》66页PDF、149页PPT，元宇宙最新综述论文：韩国KAIST、港科大、中科大、赫尔辛基大学等，全面解读元宇宙概念、发展历史、关键技术、生态体系

专知会员服务

171+阅读 · 2022年2月11日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

元宇宙，下一个 “生态级”科技主线，66页ppt

专知会员服务

65+阅读 · 2021年9月20日

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

「元宇宙Metaverse」最新全面技术综述(中文版)

「元宇宙Metaverse」最新全面技术综述(中文版)

专知

14+阅读 · 2022年4月22日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

腾讯未来城市图景WeCity发布，70页PPT详解智慧城市进化之道 | 附报告下载

腾讯未来城市图景WeCity发布，70页PPT详解智慧城市进化之道 | 附报告下载

腾讯研究院

14+阅读 · 2019年11月7日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

Awesome-Chinese-NLP：中文自然语言处理相关资料

Awesome-Chinese-NLP：中文自然语言处理相关资料

AINLP

30+阅读 · 2019年2月17日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月24日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Arxiv

0+阅读 · 2月11日

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

Arxiv

0+阅读 · 2月10日

SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents

Arxiv

0+阅读 · 2月10日

RecoWorld: Building Simulated Environments for Agentic Recommender Systems

Arxiv

0+阅读 · 2月6日

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Arxiv

0+阅读 · 2月3日

sVIRGO: A Scalable Virtual Tree Hierarchical Framework for Distributed Systems

Arxiv

0+阅读 · 2月2日

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

2+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

非Transformer不可？最新《状态空间模型（SSM）》综述

非Transformer不可？最新《状态空间模型（SSM）》综述

专知会员服务

75+阅读 · 2024年4月16日

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

如何生成复杂逼真3D场景？CVPR2023英伟达等提出《分层潜在扩散模型》生成复杂的开放世界3D场景

专知会员服务

48+阅读 · 2023年4月20日

韩国学者发布《元宇宙中的区块链》综述，Blockchain for the Metaverse: A Review

韩国学者发布《元宇宙中的区块链》综述，Blockchain for the Metaverse: A Review

专知会员服务

46+阅读 · 2022年3月22日

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

【西安交大等】元宇宙综述:基本原理、安全性和隐私性，A Survey on Metaverse: Fundamentals, Security, and Privacy

专知会员服务

45+阅读 · 2022年3月8日

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

Into the Metaverse，93页ppt介绍元宇宙概念、应用、趋势

专知会员服务

49+阅读 · 2022年2月19日

71页PDF，Intro to the Metaverse（元宇宙概念发展透析），Newzoo Trend Report 2021

71页PDF，Intro to the Metaverse（元宇宙概念发展透析），Newzoo Trend Report 2021

专知会员服务

22+阅读 · 2022年2月19日

香港中文大学（深圳）发表【元宇宙】论文（ACM MM 2021） Metaverse for Social Good: A University Campus Prototype，提出一个三层的元宇宙架构：基础设施、交互和生态系统 | 附讲解视频链接

香港中文大学（深圳）发表【元宇宙】论文（ACM MM 2021） Metaverse for Social Good: A University Campus Prototype，提出一个三层的元宇宙架构：基础设施、交互和生态系统 | 附讲解视频链接

专知会员服务

35+阅读 · 2022年2月13日

《元宇宙：关于技术奇点、虚拟生态系统和研究议程的完整综述》66页PDF、149页PPT，元宇宙最新综述论文：韩国KAIST、港科大、中科大、赫尔辛基大学等，全面解读元宇宙概念、发展历史、关键技术、生态体系

《元宇宙：关于技术奇点、虚拟生态系统和研究议程的完整综述》66页PDF、149页PPT，元宇宙最新综述论文：韩国KAIST、港科大、中科大、赫尔辛基大学等，全面解读元宇宙概念、发展历史、关键技术、生态体系

专知会员服务

171+阅读 · 2022年2月11日

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

Swin Transformer重磅升级！Swin V2：向更大容量、更高分辨率的更大模型迈进

专知会员服务

28+阅读 · 2021年11月20日

元宇宙，下一个 “生态级”科技主线，66页ppt

专知会员服务

65+阅读 · 2021年9月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

精通ChatGPT等大模型，掌握最前沿技术，这有份绝佳资源

机器之心

15+阅读 · 2023年4月12日

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

Web3.0(元宇宙)概念下的场景生态简析，33页ppt

专知

30+阅读 · 2022年4月23日

「元宇宙Metaverse」最新全面技术综述(中文版)

「元宇宙Metaverse」最新全面技术综述(中文版)

专知

14+阅读 · 2022年4月22日

3D Human相关研究总结：人体、姿态估计、人体重建等

3D Human相关研究总结：人体、姿态估计、人体重建等

PaperWeekly

27+阅读 · 2021年3月1日

腾讯未来城市图景WeCity发布，70页PPT详解智慧城市进化之道 | 附报告下载

腾讯未来城市图景WeCity发布，70页PPT详解智慧城市进化之道 | 附报告下载

腾讯研究院

14+阅读 · 2019年11月7日

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

BERT/注意力机制/Transformer/迁移学习NLP资源大列表：awesome-bert-nlp

AINLP

40+阅读 · 2019年6月9日

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

从虚拟到现实，北大等提出基于强化学习的端到端主动目标跟踪方法

机器之心

23+阅读 · 2019年4月13日

Awesome-Chinese-NLP：中文自然语言处理相关资料

Awesome-Chinese-NLP：中文自然语言处理相关资料

AINLP

30+阅读 · 2019年2月17日

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

新智元

19+阅读 · 2019年1月30日

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

谷歌、CMU重磅论文：Transformer升级版，评估速度提升超1800倍！

新智元

11+阅读 · 2019年1月12日

相关论文

SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training

Arxiv

0+阅读 · 2月24日

WebWorld: A Large-Scale World Model for Web Agent Training

Arxiv

0+阅读 · 2月16日

AutoWebWorld: Synthesizing Infinite Verifiable Web Environments via Finite State Machines

Arxiv

0+阅读 · 2月15日

SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents

Arxiv

0+阅读 · 2月11日

SWE-Bench Mobile: Can Large Language Model Agents Develop Industry-Level Mobile Applications?

Arxiv

0+阅读 · 2月10日

SWE-AGI: Benchmarking Specification-Driven Software Construction with MoonBit in the Era of Autonomous Agents

Arxiv

0+阅读 · 2月10日

RecoWorld: Building Simulated Environments for Agentic Recommender Systems

Arxiv

0+阅读 · 2月6日

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Arxiv

0+阅读 · 2月3日

sVIRGO: A Scalable Virtual Tree Hierarchical Framework for Distributed Systems

Arxiv

0+阅读 · 2月2日

Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory

Arxiv

0+阅读 · 2月2日

相关基金

面向网络虚拟化的网络层可信身份验证机制研究

国家自然科学基金

0+阅读 · 2017年12月31日

小规模量子混成系统的验证

国家自然科学基金

0+阅读 · 2015年12月31日

动态环境下的实时高清大规模三维地形重建研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于三维激光测距的移动机器人室外环境语义地图构建

国家自然科学基金

2+阅读 · 2015年12月31日

GNSS仿真模型服务化共享关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

可压缩多介质流体的真正多维高保真算法

国家自然科学基金

0+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

使用GPU加速银道面尘埃辐射图像的高分辨率模拟与多参数反演

国家自然科学基金

0+阅读 · 2015年12月31日

基于虚拟原型的信息物理融合系统高效可信构造研究

国家自然科学基金

8+阅读 · 2015年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员