Artifact evaluation has been adopted in the Software Engineering (SE) research community for 15 years, substantially improving research reproducibility across major SE conferences. However, this success has introduced a growing scalability challenge, as artifact evaluation relies heavily on reviewers' manual execution and debugging, leading to escalating human effort amid rapidly increasing paper submissions. To address this problem, we investigate automated artifact evaluation. We first conduct a preliminary study on artifacts from top-tier SE conferences and identify three key challenges: perceiving execution states, maintaining stable execution environments, and recovering from execution errors. Inspired by these findings, we propose ArtifactCopilot, the first end-to-end agent-based framework for automated artifact evaluation. ArtifactCopilot automates environment construction, instruction execution, and error recovery by combining an execution normalization strategy to ensure environment stability with an artifact evaluation graph that transforms README documents into dependency-aware command graphs, enabling structured execution planning, execution-state tracking, and error recovery. Evaluation on 48 real-world artifacts shows that ArtifactCopilot matches human artifact evaluation outcomes for 85.42% of the artifacts, outperforming Claude Code by 52.09 percentage points, while costing only \$0.091 per artifact on average and requiring zero human intervention for 45 out of 48 artifacts.


翻译:制品评估在软件工程研究领域已推行十五年,显著提升了主流软件工程会议的研究可复现性。然而,这一成功也带来了日益严峻的可扩展性挑战:由于制品评估高度依赖评审人员的手动执行与调试,在论文投稿量急剧增长的背景下,人力成本持续攀升。为解决该问题,本研究探索自动化制品评估方法。我们首先对顶级软件工程会议的制品开展初步研究,识别出三大核心挑战:执行状态感知、稳定执行环境维持及执行错误恢复。基于这些发现,我们提出首个端到端基于智能体的自动化制品评估框架ArtifactCopilot。该框架通过融合执行标准化策略(确保环境稳定性)与制品评估图(将README文档转化为具备依赖感知的命令图),实现了环境构建、指令执行与错误恢复的自动化,支持结构化执行规划、执行状态跟踪及错误恢复机制。在48个真实世界制品上的评估表明:ArtifactCopilot在85.42%的制品评估中与人工评估结果一致,较Claude Code提升52.09个百分点,平均单制品评估成本仅0.091美元,且在48个制品中有45个实现零人工干预。

0
下载
关闭预览

相关内容

软件(中国大陆及香港用语,台湾作软体,英文:Software)是一系列按照特定顺序组织的计算机数据和指令的集合。一般来讲软件被划分为编程语言、系统软件、应用软件和介于这两者之间的中间件。软件就是程序加文档的集合体。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
国家标准《人工智能风险管理能力评估》(征求意见稿)
集成智能系统评价框架与应用研究
专知会员服务
68+阅读 · 2023年9月13日
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
76+阅读 · 2023年7月4日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
专知会员服务
98+阅读 · 2021年1月24日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【软件工程】软件工程的智能化和知识化
产业智能官
10+阅读 · 2019年6月21日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
人工智能在设备状态评价和故障诊断中的应用
NE电气
23+阅读 · 2018年11月17日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月10日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
《软件定义网络元素与机器代码的形式化验证》
专知会员服务
12+阅读 · 2025年11月18日
国家标准《人工智能风险管理能力评估》(征求意见稿)
集成智能系统评价框架与应用研究
专知会员服务
68+阅读 · 2023年9月13日
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
76+阅读 · 2023年7月4日
《人工智能芯片基准测试评估方法》行业标准
专知会员服务
87+阅读 · 2022年2月20日
专知会员服务
98+阅读 · 2021年1月24日
相关资讯
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【软件工程】软件工程的智能化和知识化
产业智能官
10+阅读 · 2019年6月21日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
人工智能在设备状态评价和故障诊断中的应用
NE电气
23+阅读 · 2018年11月17日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员