Automated software environment setup is a prerequisite for testing, debugging, and reproducing failures, yet remains challenging in practice due to complex dependencies, heterogeneous build systems, and incomplete documentation. Recent work leverages large language models to automate this process, but typically evaluates success using weak signals such as dependency installation or partial test execution, which do not ensure that a project can actually run. In this paper, we argue that environment setup success should be evaluated through executable evidence rather than a single binary signal. We introduce the Environment Maturity Hierarchy, which defines three success levels based on progressively stronger execution requirements, culminating in successful execution of a project's main entry point. Guided by this hierarchy, we propose HerAgent, an automated environment setup approach that incrementally constructs executable environments through execution-based validation and repair. We evaluate HerAgent on four public benchmarks, where it outperforms all related work, achieving up to 79.6\% improvement due to its holistic understanding of project structure and dependencies. On complex C/C++ projects, HerAgent surpasses prior approaches by 66.7\%. In addition, HerAgent uniquely resolves 11-30 environment instances across the benchmarks that no prior method can configure.


翻译:自动化软件环境搭建是测试、调试与故障复现的前提条件,但由于依赖关系复杂、构建系统异构及文档不完整等问题,在实践中仍具挑战性。近期研究利用大语言模型实现该过程的自动化,但通常仅通过依赖项安装或部分测试执行等弱信号评估成功率,这些指标无法确保项目实际可运行。本文主张环境搭建的成功应通过可执行证据而非单一二元信号进行评估。我们提出环境成熟度分层框架,该框架基于递增强化的执行要求定义了三个成功等级,其最高标准是项目主入口点的成功执行。在此框架指导下,我们提出HerAgent——一种通过基于执行的验证与修复机制逐步构建可执行环境的自动化环境搭建方法。我们在四个公共基准测试上评估HerAgent,其表现优于所有相关研究,得益于对项目结构与依赖关系的整体理解,实现了最高79.6%的性能提升。在复杂C/C++项目中,HerAgent以66.7%的优势超越现有方法。此外,HerAgent在各基准测试中独立解决了11-30个其他方法均无法配置的环境实例。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
动态三维场景重建研究综述
专知会员服务
35+阅读 · 2024年8月23日
《5G/6G毫米波测试技术白皮书》未来移动通信论坛
专知会员服务
17+阅读 · 2022年4月15日
专知会员服务
98+阅读 · 2021年1月24日
专知会员服务
14+阅读 · 2020年12月17日
阿里巴巴全球化架构设计挑战
InfoQ
36+阅读 · 2019年11月25日
最全的智慧工地解决方案
智能交通技术
11+阅读 · 2019年8月30日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
阿里巴巴全球化架构设计挑战
InfoQ
36+阅读 · 2019年11月25日
最全的智慧工地解决方案
智能交通技术
11+阅读 · 2019年8月30日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员