Automated software environment setup is a prerequisite for testing, debugging, and reproducing failures, yet remains challenging in practice due to complex dependencies, heterogeneous build systems, and incomplete documentation. Recent work leverages large language models to automate this process, but typically evaluates success using weak signals such as dependency installation or partial test execution, which do not ensure that a project can actually run. In this paper, we argue that environment setup success should be evaluated through executable evidence rather than a single binary signal. We introduce the Environment Maturity Hierarchy, which defines three success levels based on progressively stronger execution requirements, culminating in successful execution of a project's main entry point. Guided by this hierarchy, we propose HerAgent, an automated environment setup approach that incrementally constructs executable environments through execution-based validation and repair. We evaluate HerAgent on four public benchmarks, where it outperforms all related work, achieving up to 79.6\% improvement due to its holistic understanding of project structure and dependencies. On complex C/C++ projects, HerAgent surpasses prior approaches by 66.7\%. In addition, HerAgent uniquely resolves 11-30 environment instances across the benchmarks that no prior method can configure.


翻译:自动化软件环境配置是测试、调试及复现故障的先决条件,但由于复杂的依赖关系、异构的构建系统以及不完整的文档,该任务在实践中仍具挑战性。近期研究利用大语言模型实现该过程的自动化,但通常采用依赖项安装或部分测试执行等弱信号来评估成功率,这些指标无法确保项目实际可运行。本文主张环境配置的成功应通过可执行证据而非单一二元信号进行评估。我们提出环境成熟度层级,该框架基于逐步增强的执行要求定义了三个成功等级,最终以项目主入口点的成功执行为最高标准。在此层级框架指导下,我们提出HerAgent——一种通过基于执行的验证与修复机制逐步构建可执行环境的自动化环境配置方法。我们在四个公开基准测试中评估HerAgent,其表现优于所有相关工作,得益于对项目结构与依赖关系的整体理解,实现了最高79.6%的性能提升。在复杂C/C++项目上,HerAgent以66.7%的优势超越现有方法。此外,HerAgent在各基准测试中独立解决了11-30个其他方法均无法配置的环境实例。

0
下载
关闭预览

相关内容

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程, 是一门涉及学科较多、应用广泛的综合性科学技术。
《5G/6G毫米波测试技术白皮书》未来移动通信论坛
专知会员服务
17+阅读 · 2022年4月15日
专知会员服务
14+阅读 · 2021年9月21日
专知会员服务
98+阅读 · 2021年1月24日
专知会员服务
14+阅读 · 2020年12月17日
阿里巴巴全球化架构设计挑战
InfoQ
36+阅读 · 2019年11月25日
最全的智慧工地解决方案
智能交通技术
11+阅读 · 2019年8月30日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
阿里巴巴全球化架构设计挑战
InfoQ
36+阅读 · 2019年11月25日
最全的智慧工地解决方案
智能交通技术
11+阅读 · 2019年8月30日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员