HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid - 专知论文

会员服务 ·

0

自动化 · 分层 · 构建 · 基准 · 基准测试 ·

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

翻译：HerAgent：基于分层测试金字塔重构自动化环境部署

Xiang Li,Siyu Lu,Sarro Federica,Claire Le Goues,He Ye

Automated software environment setup is a prerequisite for testing, debugging, and reproducing failures, yet remains challenging in practice due to complex dependencies, heterogeneous build systems, and incomplete documentation. Recent work leverages large language models to automate this process, but typically evaluates success using weak signals such as dependency installation or partial test execution, which do not ensure that a project can actually run. In this paper, we argue that environment setup success should be evaluated through executable evidence rather than a single binary signal. We introduce the Environment Maturity Hierarchy, which defines three success levels based on progressively stronger execution requirements, culminating in successful execution of a project's main entry point. Guided by this hierarchy, we propose HerAgent, an automated environment setup approach that incrementally constructs executable environments through execution-based validation and repair. We evaluate HerAgent on four public benchmarks, where it outperforms all related work, achieving up to 79.6\% improvement due to its holistic understanding of project structure and dependencies. On complex C/C++ projects, HerAgent surpasses prior approaches by 66.7\%. In addition, HerAgent uniquely resolves 11-30 environment instances across the benchmarks that no prior method can configure.

翻译：自动化软件环境搭建是测试、调试与故障复现的前提条件，但由于依赖关系复杂、构建系统异构及文档不完整等问题，在实践中仍具挑战性。近期研究利用大语言模型实现该过程的自动化，但通常仅通过依赖项安装或部分测试执行等弱信号评估成功率，这些指标无法确保项目实际可运行。本文主张环境搭建的成功应通过可执行证据而非单一二元信号进行评估。我们提出环境成熟度分层框架，该框架基于递增强化的执行要求定义了三个成功等级，其最高标准是项目主入口点的成功执行。在此框架指导下，我们提出HerAgent——一种通过基于执行的验证与修复机制逐步构建可执行环境的自动化环境搭建方法。我们在四个公共基准测试上评估HerAgent，其表现优于所有相关研究，得益于对项目结构与依赖关系的整体理解，实现了最高79.6%的性能提升。在复杂C/C++项目中，HerAgent以66.7%的优势超越现有方法。此外，HerAgent在各基准测试中独立解决了11-30个其他方法均无法配置的环境实例。

0

相关内容

自动化

机器或装置在无人干预的情况下按规定的程序或指令自动进行操作或控制的过程，是一门涉及学科较多、应用广泛的综合性科学技术。

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

数字大动脉未来新底座——数字基础设施评估体系研究报告（2024年）

数字大动脉未来新底座——数字基础设施评估体系研究报告（2024年）

专知会员服务

37+阅读 · 2024年3月31日

最新！《智能网联汽车自动驾驶功能道路试验方法及要求》国家标准意见稿

最新！《智能网联汽车自动驾驶功能道路试验方法及要求》国家标准意见稿

专知会员服务

20+阅读 · 2022年8月9日

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

专知会员服务

20+阅读 · 2022年6月25日

《5G/6G毫米波测试技术白皮书》未来移动通信论坛

《5G/6G毫米波测试技术白皮书》未来移动通信论坛

专知会员服务

17+阅读 · 2022年4月15日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

【博士论文】软件系统网络化建模、质量度量与保证

专知会员服务

14+阅读 · 2020年12月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

阿里巴巴全球化架构设计挑战

阿里巴巴全球化架构设计挑战

InfoQ

36+阅读 · 2019年11月25日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

最全的智慧工地解决方案

最全的智慧工地解决方案

智能交通技术

11+阅读 · 2019年8月30日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

【数字孪生】数字孪生是工业互联网关键技术和重要场景

【数字孪生】数字孪生是工业互联网关键技术和重要场景

产业智能官

39+阅读 · 2019年4月9日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

A Formal Framework for Predicting Distributed System Performance under Faults

Arxiv

0+阅读 · 2月22日

SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

Arxiv

0+阅读 · 2月18日

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

Arxiv

0+阅读 · 2月13日

Environment-in-the-Loop: Rethinking Code Migration with LLM-based Agents

Arxiv

0+阅读 · 2月10日

EgoFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

Arxiv

0+阅读 · 2月9日

STELLAR: Structure-guided LLM Assertion Retrieval and Generation for Formal Verification

Arxiv

0+阅读 · 2月5日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月3日

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Arxiv

0+阅读 · 2月2日

StefaLand: An Efficient Geoscience Foundation Model That Improves Dynamic Land-Surface Predictions

Arxiv

0+阅读 · 2月2日

TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

1+阅读 · 35分钟前

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

1+阅读 · 59分钟前

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

1+阅读 · 今天13:57

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

1+阅读 · 今天13:27

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

11+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

10+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

8+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

6+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

8+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

9+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

8+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

《面向大语言模型引导规划、赌徒驱动探索与多智能体导航的分层决策》最新180页

专知会员服务

28+阅读 · 2025年11月17日

动态三维场景重建研究综述

动态三维场景重建研究综述

专知会员服务

36+阅读 · 2024年8月23日

数字大动脉未来新底座——数字基础设施评估体系研究报告（2024年）

数字大动脉未来新底座——数字基础设施评估体系研究报告（2024年）

专知会员服务

37+阅读 · 2024年3月31日

最新！《智能网联汽车自动驾驶功能道路试验方法及要求》国家标准意见稿

最新！《智能网联汽车自动驾驶功能道路试验方法及要求》国家标准意见稿

专知会员服务

20+阅读 · 2022年8月9日

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

专知会员服务

20+阅读 · 2022年6月25日

《5G/6G毫米波测试技术白皮书》未来移动通信论坛

《5G/6G毫米波测试技术白皮书》未来移动通信论坛

专知会员服务

17+阅读 · 2022年4月15日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

【博士论文】软件系统网络化建模、质量度量与保证

专知会员服务

14+阅读 · 2020年12月17日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

阿里巴巴全球化架构设计挑战

阿里巴巴全球化架构设计挑战

InfoQ

36+阅读 · 2019年11月25日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

最全的智慧工地解决方案

最全的智慧工地解决方案

智能交通技术

11+阅读 · 2019年8月30日

工行基于MySQL构建分布式架构的转型之路

工行基于MySQL构建分布式架构的转型之路

炼数成金订阅号

15+阅读 · 2019年5月16日

亿级订单数据的访问与储存，怎么实现与优化

亿级订单数据的访问与储存，怎么实现与优化

ImportNew

11+阅读 · 2019年4月22日

亿级订单数据的访问与存储，怎么实现与优化？

亿级订单数据的访问与存储，怎么实现与优化？

码农翻身

16+阅读 · 2019年4月17日

【数字孪生】数字孪生是工业互联网关键技术和重要场景

【数字孪生】数字孪生是工业互联网关键技术和重要场景

产业智能官

39+阅读 · 2019年4月9日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【知识图谱】知识图谱+人工智能=新型网络信息体系

【知识图谱】知识图谱+人工智能=新型网络信息体系

产业智能官

14+阅读 · 2018年11月18日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

A Formal Framework for Predicting Distributed System Performance under Faults

Arxiv

0+阅读 · 2月22日

SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

SPARC: Scenario Planning and Reasoning for Automated C Unit Test Generation

Arxiv

0+阅读 · 2月18日

HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid

Arxiv

0+阅读 · 2月13日

Environment-in-the-Loop: Rethinking Code Migration with LLM-based Agents

Arxiv

0+阅读 · 2月10日

EgoFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving

Arxiv

0+阅读 · 2月9日

STELLAR: Structure-guided LLM Assertion Retrieval and Generation for Formal Verification

Arxiv

0+阅读 · 2月5日

Morphis: SLO-Aware Resource Scheduling for Microservices with Time-Varying Call Graphs

Arxiv

0+阅读 · 2月3日

Avenir-Web: Human-Experience-Imitating Multimodal Web Agents with Mixture of Grounding Experts

Arxiv

0+阅读 · 2月2日

StefaLand: An Efficient Geoscience Foundation Model That Improves Dynamic Land-Surface Predictions

Arxiv

0+阅读 · 2月2日

TraceLLM: Leveraging Large Language Models with Prompt Engineering for Enhanced Requirements Traceability

Arxiv

0+阅读 · 2月1日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

面向任务成功性的可修系统重要度分析及优化

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员