Hybrid-Gym: Training Coding Agents to Generalize Across Tasks - 专知论文

会员服务 ·

0

泛化 · 代码 · 合成 · 性能提升 · 智能体 ·

Hybrid-Gym: Training Coding Agents to Generalize Across Tasks

翻译：Hybrid-Gym：训练编码智能体实现跨任务泛化

Yiqing Xie,Emmy Liu,Gaokai Zhang,Nachiket Kotalwar,Shubham Gandhi,Sathwik Acharya,Xingyao Wang,Carolyn Rose,Graham Neubig,Daniel Fried

When assessing the quality of coding agents, predominant benchmarks focus on solving single issues on GitHub, such as SWE-Bench. In contrast, in real use, these agents solve more various and complex tasks that involve other skills such as exploring codebases, testing software, and designing architecture. In this paper, we first characterize some transferable skills that are shared across diverse tasks by decomposing trajectories into fine-grained components, and derive a set of principles for designing auxiliary training tasks to teach language models these skills. Guided by these principles, we propose a training environment, Hybrid-Gym, consisting of a set of scalable synthetic tasks, such as function localization and dependency search. Experiments show that agents trained on our synthetic tasks effectively generalize to diverse real-world tasks that are not present in training, improving a base model by 25.4% absolute gain on SWE-Bench Verified, 7.9% on SWT-Bench Verified, and 5.1% on Commit-0 Lite. Hybrid-Gym also complements datasets built for the downstream tasks (e.g., improving SWE-Play by 4.9% on SWT-Bench Verified). Code available at: https://github.com/yiqingxyq/Hybrid-Gym.

翻译：在评估编码智能体的质量时，主流基准（如SWE-Bench）主要关注解决GitHub上的单一问题。然而，在实际应用中，这些智能体需要解决更加多样和复杂的任务，涉及探索代码库、测试软件和设计架构等其他技能。本文首先通过将任务轨迹分解为细粒度组件，刻画了跨不同任务共享的可迁移技能，并推导出一套设计辅助训练任务以教授语言模型这些技能的原则。基于这些原则，我们提出了一个训练环境Hybrid-Gym，它包含一组可扩展的合成任务，例如函数定位和依赖项搜索。实验表明，在我们的合成任务上训练的智能体能够有效泛化至训练中未出现的多样化现实任务，在SWE-Bench Verified上使基础模型的绝对性能提升25.4%，在SWT-Bench Verified上提升7.9%，在Commit-0 Lite上提升5.1%。Hybrid-Gym还能补充为下游任务构建的数据集（例如，在SWT-Bench Verified上将SWE-Play的性能提升4.9%）。代码发布于：https://github.com/yiqingxyq/Hybrid-Gym。

0

相关内容

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

48+阅读 · 3月1日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

35+阅读 · 2025年12月31日

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

专知会员服务

34+阅读 · 2025年9月20日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

48+阅读 · 2025年8月18日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

专知会员服务

25+阅读 · 2024年3月19日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

236+阅读 · 2022年4月10日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

【干货】深度神经网络模型训练中的最新tricks总结(原理与代码汇总)

【干货】深度神经网络模型训练中的最新tricks总结(原理与代码汇总)

GAN生成式对抗网络

37+阅读 · 2019年3月7日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

AgentCgroup: Understanding and Controlling OS Resources of AI Agents

Arxiv

0+阅读 · 2月21日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

SecRepoBench: Benchmarking Code Agents for Secure Code Completion in Real-World Repositories

Arxiv

0+阅读 · 2月14日

Learning to Compose for Cross-domain Agentic Workflow Generation

Arxiv

0+阅读 · 2月11日

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Arxiv

0+阅读 · 2月11日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

乌军利用美国“黄蜂”无人机摧毁俄军后勤

乌军利用美国“黄蜂”无人机摧毁俄军后勤

专知会员服务

1+阅读 · 今天14:53

《支持作战级人机协同智能的交互式OODA流程》

《支持作战级人机协同智能的交互式OODA流程》

专知会员服务

2+阅读 · 今天14:46

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

专知会员服务

1+阅读 · 今天14:42

大语言模型与物联网：大语言模型与物联网融合全面综述

大语言模型与物联网：大语言模型与物联网融合全面综述

专知会员服务

3+阅读 · 今天14:35

【伯克利博士论文】基于动作分块策略的强化学习

【伯克利博士论文】基于动作分块策略的强化学习

专知会员服务

1+阅读 · 今天13:50

Transformer增强强化学习：通信网络基础与应用综述

Transformer增强强化学习：通信网络基础与应用综述

专知会员服务

1+阅读 · 今天13:47

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

5+阅读 · 6月6日

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

7+阅读 · 6月6日

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

专知会员服务

12+阅读 · 6月6日

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

专知会员服务

7+阅读 · 6月6日

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

9+阅读 · 6月6日

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

专知会员服务

9+阅读 · 6月6日

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

7+阅读 · 6月6日

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

10+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

7+阅读 · 6月5日

相关VIP内容

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

【牛津博士论文】面向长时程决策任务的高效智能体训练方法

专知会员服务

19+阅读 · 3月27日

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

48+阅读 · 3月1日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

35+阅读 · 2025年12月31日

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

协同智能体：多智能体人工智能系统如何变革军事训练及其他领域

专知会员服务

34+阅读 · 2025年9月20日

AI智能体编程：技术、挑战与机遇综述

AI智能体编程：技术、挑战与机遇综述

专知会员服务

48+阅读 · 2025年8月18日

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

【ETHZ博士论文】设计与分析：一种面向极大规模、高性能、模块化的智能体仿真平台

专知会员服务

31+阅读 · 2025年3月17日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

“战斗空间”智能体开发《神经网络结构化数据编码实验》最新论文

专知会员服务

25+阅读 · 2024年3月19日

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

【AI+军事】美国HRL实验室AAAI2020《基于强化学习的多智能体任务规划》，Multi-Agent Mission Planning with Reinforcement Learning

专知会员服务

236+阅读 · 2022年4月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《支持作战级人机协同智能的交互式OODA流程》

大语言模型与物联网：大语言模型与物联网融合全面综述

乌军利用美国“黄蜂”无人机摧毁俄军后勤

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

这个项目火了！各种深度学习架构，模型和技巧的集合

这个项目火了！各种深度学习架构，模型和技巧的集合

大数据技术

14+阅读 · 2019年6月13日

使用强化学习训练机械臂完成人类任务

使用强化学习训练机械臂完成人类任务

AI研习社

14+阅读 · 2019年3月23日

【干货】深度神经网络模型训练中的最新tricks总结(原理与代码汇总)

【干货】深度神经网络模型训练中的最新tricks总结(原理与代码汇总)

GAN生成式对抗网络

37+阅读 · 2019年3月7日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind：用PopArt进行多任务深度强化学习

DeepMind：用PopArt进行多任务深度强化学习

论智

30+阅读 · 2018年9月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

相关论文

TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training

Arxiv

0+阅读 · 3月2日

AgentCgroup: Understanding and Controlling OS Resources of AI Agents

Arxiv

0+阅读 · 2月21日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

SecRepoBench: Benchmarking Code Agents for Secure Code Completion in Real-World Repositories

Arxiv

0+阅读 · 2月14日

Learning to Compose for Cross-domain Agentic Workflow Generation

Arxiv

0+阅读 · 2月11日

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

Arxiv

0+阅读 · 2月11日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

OmniCode: A Benchmark for Evaluating Software Engineering Agents

Arxiv

0+阅读 · 2月6日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

FullStack-Agent: Enhancing Agentic Full-Stack Web Coding via Development-Oriented Testing and Repository Back-Translation

Arxiv

0+阅读 · 2月3日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线异构网络中多媒体信息组播的多速率网络编码理论和应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员