Artifact evaluation has been adopted in the Software Engineering (SE) research community for 15 years, substantially improving research reproducibility across major SE conferences. However, this success has introduced a growing scalability challenge, as artifact evaluation relies heavily on reviewers' manual execution and debugging, leading to escalating human effort amid rapidly increasing paper submissions. To address this problem, we investigate automated artifact evaluation. We first conduct a preliminary study on artifacts from top-tier SE conferences and identify three key challenges: perceiving execution states, maintaining stable execution environments, and recovering from execution errors. Inspired by these findings, we propose ArtifactCopilot, the first end-to-end agent-based framework for automated artifact evaluation. ArtifactCopilot automates environment construction, instruction execution, and error recovery by combining an execution normalization strategy to ensure environment stability with an artifact evaluation graph that transforms README documents into dependency-aware command graphs, enabling structured execution planning, execution-state tracking, and error recovery. Evaluation on 48 real-world artifacts shows that ArtifactCopilot matches human artifact evaluation outcomes for 85.42% of the artifacts, outperforming Claude Code by 52.09 percentage points, while costing only \$0.091 per artifact on average and requiring zero human intervention for 45 out of 48 artifacts.


翻译:软件制品评估已在软件工程研究社区推行十五年,显著提升了主流SE会议的研究可复现性。然而,这一成功也带来了日益严峻的可扩展性挑战:由于制品评估高度依赖评审人员的手动执行与调试,在论文投稿量快速增长背景下,人力成本持续攀升。为解决该问题,本研究探索自动化制品评估方法。我们首先对顶级SE会议的制品开展初步研究,识别出三大关键挑战:执行状态感知、稳定执行环境维持以及执行错误恢复。基于这些发现,我们提出首个端到端基于智能体的自动化制品评估框架ArtifactCopilot。该框架通过结合确保环境稳定性的执行规范化策略与将README文档转化为依赖感知命令图的制品评估图,实现了环境构建、指令执行和错误恢复的自动化,支持结构化执行规划、执行状态跟踪及错误恢复机制。在48个真实世界制品上的评估表明,ArtifactCopilot在85.42%的制品评估中达到人类评估水平,较Claude Code提升52.09个百分点,单制品平均成本仅0.091美元,且在48个制品中有45个实现零人工干预。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
国家标准《人工智能风险管理能力评估》(征求意见稿)
《综述:测试与评估中应用的人工智能工具》
专知会员服务
73+阅读 · 2024年1月22日
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
76+阅读 · 2023年7月4日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
专知会员服务
98+阅读 · 2021年1月24日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【软件工程】软件工程的智能化和知识化
产业智能官
10+阅读 · 2019年6月21日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
国家标准《人工智能风险管理能力评估》(征求意见稿)
《综述:测试与评估中应用的人工智能工具》
专知会员服务
73+阅读 · 2024年1月22日
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
76+阅读 · 2023年7月4日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
专知会员服务
98+阅读 · 2021年1月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员