Recent anecdotal evidence suggests that AI coding agents can reproduce published findings when provided with original data and code; yet systematic evaluation across social sciences remains limited. Existing evaluation benchmarks are insufficient, either small or conflate agent performance with problems in the reproduction materials themselves, such as code that fails to execute correctly. Here we introduce SocSci-Repro-Bench, a benchmark of 221 tasks spanning four disciplines and 13 substantive domains, constructed from studies whose results are either fully reproducible with available materials or demonstrably non-reproducible due to missing data, allowing us to isolate agents' reproduction capacity. Evaluating two frontier coding agents, Claude Code and Codex, we find that both can reproduce a large share of social science findings, with Claude Code substantially outperforming Codex. These reproduction rates considerably exceed those previously reported for general-purpose LLM-based agents on comparable reproducibility benchmarks. Both agents also perform strongly on a reasoning task requiring identification of underlying research questions, and additional analyses suggest that results are not primarily driven by memorization. Providing the original paper PDF alongside replication materials modestly improves performance but introduces bias on tasks where reproduction is impossible. We also show that agents can be nudged toward confirmatory specification search through subtle prompt framing. Together, these findings suggest that at least some frontier coding agents can serve as reliable executors of computational workflows while underscoring the need for careful benchmarking and prompt design as AI systems assume larger roles in scientific production.


翻译:近期轶事证据表明,当提供原始数据和代码时,AI编程智能体能够复现已发表的研究结果;然而,在社会科学领域的系统性评估仍十分有限。现有的评估基准要么样本量不足,要么将智能体性能与复现材料(如无法正确执行的代码)本身的问题混为一谈。为此,我们提出了SocSci-Repro-Bench基准测试,包含涵盖四个学科和13个实质性领域的221项任务,这些任务源自其研究结果要么可通过现有材料完全复现,要么因数据缺失而明显不可复现的已发表研究,从而能够独立评估智能体的复现能力。通过对前沿编程智能体Claude Code和Codex进行评测,我们发现两者均能复现大部分社会科学发现,其中Claude Code的性能显著优于Codex。这些复现率远高于此前基于通用大语言模型(LLM)的智能体在类似可复现性基准上的报告结果。此外,两个智能体在需要识别潜在研究问题的推理任务上也表现出色,进一步分析表明其结果并非主要源于记忆机制。提供原始论文PDF及复现材料能适度提升性能,但在无法复现的任务中会引入偏差。我们还发现,通过微妙的提示框架可引导智能体进行确认性规范搜索。这些发现共同表明,至少部分前沿编程智能体能够可靠地执行计算工作流程,同时也强调在AI系统在科学研究中承担更大角色时,需谨慎设计基准测试与提示指令。

0
下载
关闭预览

相关内容

人们为了让计算机解决各种棘手的问题,使用编程语言 编写程序代码并通过计算机运算得到最终结果的过程。
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
从面向科学的人工智能到智能体科学:自主科学发现综述
AI智能体编程:技术、挑战与机遇综述
专知会员服务
48+阅读 · 2025年8月18日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 6月12日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
从面向科学的人工智能到智能体科学:自主科学发现综述
AI智能体编程:技术、挑战与机遇综述
专知会员服务
48+阅读 · 2025年8月18日
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员