CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion - 专知论文

会员服务 ·

0

智能体 · 编程 · 运行时环境 · 交互 · 系统 ·

CLI-Gym: Scalable CLI Task Generation via Agentic Environment Inversion

翻译：CLI-Gym：基于智能体环境逆向的可扩展命令行任务生成

Yusong Lin,Haiyang Wang,Shuzhe Wu,Lue Fan,Feiyang Pan,Sanyuan Zhao,Dandan Tu

Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.

翻译：智能体编程要求智能体能够有效与运行时环境（如命令行界面）交互，以完成依赖项问题解决、系统故障修复等任务。然而，如何大规模获取此类环境密集型任务以增强智能体能力，目前仍缺乏深入探索。为此，基于Dockerfile与智能体任务之间的类比，我们提出利用智能体在运行反馈的引导下模拟和探索环境历史。通过追踪健康环境的历史记录，可将其状态逆向回退至存在运行时故障的早期状态，进而通过封装存在缺陷的状态及相应的错误信息来生成任务。基于我们提出的CLI-Gym方法，共衍生出1,655个环境密集型任务，构成当前该类别规模最大的数据集。此外，借助精选的成功轨迹，我们微调的LiberCoder模型在Terminal-Bench基准测试中实现了+21.1%（达到46.1%）的显著绝对性能提升，优于多种强基线方法。据我们所知，这是首个公开的、可扩展的环境密集型任务衍生流程。

0

相关内容

智能体

智能体，顾名思义，就是具有智能的实体，英文名是Agent。

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

23+阅读 · 2月11日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

智能体任务执行安全要求

智能体任务执行安全要求

专知会员服务

19+阅读 · 2025年7月12日

AI智能体基础设施

AI智能体基础设施

专知会员服务

43+阅读 · 2025年7月12日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知

20+阅读 · 2022年2月9日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

Arxiv

0+阅读 · 2月24日

AgentCgroup: Understanding and Controlling OS Resources of AI Agents

Arxiv

0+阅读 · 2月21日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

Hybrid-Gym: Training Coding Agents to Generalize Across Tasks

Arxiv

0+阅读 · 2月18日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Arxiv

0+阅读 · 2月6日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

运行时环境

最新内容

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

6+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

5+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

7+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

7+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

7+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

9+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

8+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

8+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

9+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

11+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

10+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

7+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

10+阅读 · 6月24日

相关VIP内容

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

构建面向终端的 AI 编程智能体：脚手架、测试环境、上下文工程及实践经验

专知会员服务

25+阅读 · 3月8日

伯克利最新《智能体 AI (Agentic AI)》课程

伯克利最新《智能体 AI (Agentic AI)》课程

专知会员服务

49+阅读 · 3月1日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

智能体世界模型：面向智能体化强化学习的无限合成环境

智能体世界模型：面向智能体化强化学习的无限合成环境

专知会员服务

23+阅读 · 2月11日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

37+阅读 · 2025年12月31日

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

在从交互中学习时代面向大语言模型智能体的可扩展环境：综述

专知会员服务

22+阅读 · 2025年11月15日

智能体任务执行安全要求

智能体任务执行安全要求

专知会员服务

19+阅读 · 2025年7月12日

AI智能体基础设施

AI智能体基础设施

专知会员服务

43+阅读 · 2025年7月12日

设计和构建强大的大语言模型智能体

设计和构建强大的大语言模型智能体

专知会员服务

55+阅读 · 2024年10月6日

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

【多目标多智能体系统决策】196页PDF布鲁塞尔自由大学博士论文，Decision Making in Multi-Objective Multi-Agent Systems——A Utility-Based Perspective

专知会员服务

118+阅读 · 2022年3月18日

热门VIP内容

开通专知VIP会员享更多权益服务

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

网状网络及其在军事领域的运用

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

《基于多智能体深度强化学习的空战模拟智能体协作》瑞典林雪平大学

专知

66+阅读 · 2022年8月25日

清华大学：从单体仿生到群体智能

清华大学：从单体仿生到群体智能

专知

20+阅读 · 2022年2月9日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

PlaNet 简介：用于强化学习的深度规划网络

PlaNet 简介：用于强化学习的深度规划网络

谷歌开发者

13+阅读 · 2019年3月16日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

相关论文

CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

Arxiv

0+阅读 · 3月13日

LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces

Arxiv

0+阅读 · 2月26日

SoK: Agentic Skills -- Beyond Tool Use in LLM Agents

Arxiv

0+阅读 · 2月24日

AgentCgroup: Understanding and Controlling OS Resources of AI Agents

Arxiv

0+阅读 · 2月21日

AgentConductor: Topology Evolution for Multi-Agent Competition-Level Code Generation

Arxiv

0+阅读 · 2月19日

Hybrid-Gym: Training Coding Agents to Generalize Across Tasks

Arxiv

0+阅读 · 2月18日

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis

Arxiv

1+阅读 · 2月10日

AgentXRay: White-Boxing Agentic Systems via Workflow Reconstruction

Arxiv

0+阅读 · 2月6日

Supporting software engineering tasks with agentic AI: Demonstration on document retrieval and test scenario generation

Arxiv

0+阅读 · 2月4日

Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments

Arxiv

0+阅读 · 2月3日

相关基金

三维空间基于角度测量的多机器人系统协同定位与编队控制

国家自然科学基金

11+阅读 · 2015年12月31日

基于演化博弈的多智能体环形编队的理论与实验研究

国家自然科学基金

23+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员