Agentic coding requires agents to effectively interact with runtime environments, e.g., command line interfaces (CLI), so as to complete tasks like resolving dependency issues, fixing system problems, etc. But it remains underexplored how such environment-intensive tasks can be obtained at scale to enhance agents' capabilities. To address this, based on an analogy between the Dockerfile and the agentic task, we propose to employ agents to simulate and explore environment histories, guided by execution feedback. By tracing histories of a healthy environment, its state can be inverted to an earlier one with runtime failures, from which a task can be derived by packing the buggy state and the corresponding error messages. With our method, named CLI-Gym, a total of 1,655 environment-intensive tasks are derived, being the largest collection of its kind. Moreover, with curated successful trajectories, our fine-tuned model, named LiberCoder, achieves substantial absolute improvements of +21.1% (to 46.1%) on Terminal-Bench, outperforming various strong baselines. To our knowledge, this is the first public pipeline for scalable derivation of environment-intensive tasks.


翻译:智能体编程要求智能体能够有效与运行时环境(如命令行界面)交互,以完成依赖项问题解决、系统故障修复等任务。然而,如何大规模获取此类环境密集型任务以增强智能体能力,目前仍缺乏深入探索。为此,基于Dockerfile与智能体任务之间的类比,我们提出利用智能体在运行反馈的引导下模拟和探索环境历史。通过追踪健康环境的历史记录,可将其状态逆向回退至存在运行时故障的早期状态,进而通过封装存在缺陷的状态及相应的错误信息来生成任务。基于我们提出的CLI-Gym方法,共衍生出1,655个环境密集型任务,构成当前该类别规模最大的数据集。此外,借助精选的成功轨迹,我们微调的LiberCoder模型在Terminal-Bench基准测试中实现了+21.1%(达到46.1%)的显著绝对性能提升,优于多种强基线方法。据我们所知,这是首个公开的、可扩展的环境密集型任务衍生流程。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
43+阅读 · 3月1日
通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
AI智能体基础设施
专知会员服务
41+阅读 · 2025年7月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
清华大学:从单体仿生到群体智能
专知
19+阅读 · 2022年2月9日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
人工智能赋能无人机:俄乌战争(万字长文)
专知会员服务
2+阅读 · 今天6:56
国外海军作战管理系统与作战训练系统
专知会员服务
1+阅读 · 今天4:16
美军条令《海军陆战队规划流程(2026版)》
专知会员服务
7+阅读 · 今天3:36
《压缩式分布式交互仿真标准》120页
专知会员服务
4+阅读 · 今天3:21
《电子战数据交换模型研究报告》
专知会员服务
6+阅读 · 今天3:13
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
6+阅读 · 今天2:37
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
相关VIP内容
伯克利最新《智能体 AI (Agentic AI)》课程
专知会员服务
43+阅读 · 3月1日
通用智能体评估的逻辑架构
专知会员服务
21+阅读 · 2月28日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体任务执行安全要求
专知会员服务
19+阅读 · 2025年7月12日
AI智能体基础设施
专知会员服务
41+阅读 · 2025年7月12日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
相关基金
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员