Artifact evaluation has become standard practice in the software engineering community to ensure the reproducibility of research results. However, the current manual process is labor-intensive, and hence, done only as a one-time assessment for a subset of all papers. To support the artifact evaluation effort, we present Artisan, an automated LLM agent for reproducing research results given a paper and its artifact. The approach is enabled by two key contributions: First, we frame the reproduction problem as a code generation task where the goal is to generate a reproduction script that, when executed, reproduces the results reported in a paper. Unlike prior work on automatically reproducing research results in other domains, this formulation allows for running the script independently of the agent and for assessing the reproduction process at a fine-grained level. Second, we design automated judging mechanism that guides the agent toward the expected results without revealing them and that prevent trivial solutions, such as simply copying checked-in results. To evaluate Artisan, we introduce Artisan-Bench, the first benchmark assessing the ability to generate reproduction scripts and the first benchmark for automated artifact evaluation in software engineering. Artisan-Bench comprises 60 tasks derived from 23 software engineering papers, covering different research areas and programming languages. We validate all tasks in Artisan-Bench for reproducibility to ensure that the tasks are feasible. Our experiments show that Artisan is effective, producing 44/60 reproduction scripts and outperforming the best available baseline, a vanilla LLM agent (mini-swe-agent), by 3.14$\times$ in terms of reproduction scripts generated while taking $0.45 and 48 minutes, on average per task. Artisan also helped uncover 20 new errors in either the paper or artifact.


翻译:制品评估已成为软件工程领域确保研究成果可复现性的标准实践。然而,当前的人工评估流程劳动密集度高,因此仅能对部分论文进行一次性评估。为支持制品评估工作,我们提出了Artisan——一个基于大型语言模型的自动化智能体,能够在给定论文及其制品的情况下复现研究成果。该方法得益于两项关键贡献:首先,我们将复现问题构建为代码生成任务,其目标是生成一个复现脚本,该脚本在执行时能够复现论文中报告的结果。与先前在其他领域自动复现研究成果的工作不同,该框架允许独立于智能体运行脚本,并支持在细粒度层面评估复现过程。其次,我们设计了自动化评判机制,该机制在不透露预期结果的前提下引导智能体接近目标,并防止出现直接复制已提交结果等简单解决方案。为评估Artisan,我们构建了Artisan-Bench——首个用于评估复现脚本生成能力的基准测试,也是软件工程领域首个面向自动化制品评估的基准。Artisan-Bench包含从23篇软件工程论文中提取的60项任务,涵盖不同研究领域和编程语言。我们验证了Artisan-Bench中所有任务的可复现性,以确保任务的可行性。实验表明Artisan具有显著效果:成功生成44/60个复现脚本,在生成复现脚本数量上以3.14$\times$的优势超越当前最佳基线方法(基础版LLM智能体mini-swe-agent),平均每项任务仅需0.45美元和48分钟。Artisan还帮助发现了论文或制品中存在的20个新错误。

0
下载
关闭预览

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
文本、视觉与语音生成的自动化评估方法综述
专知会员服务
20+阅读 · 2025年6月15日
《AI生成视频评估综述》
专知会员服务
28+阅读 · 2024年10月30日
重磅!《“可信AI”评估体系产品手册》正式发布,24页pdf
专知会员服务
76+阅读 · 2023年7月4日
深度 | 推荐系统评估
AI100
24+阅读 · 2019年3月16日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
图像美学质量评价技术发展趋势
科技导报
19+阅读 · 2018年6月25日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员