ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review - 专知论文

会员服务 ·

0

Agent · 缩放 · 模型评估 · 输出 · 有向 ·

ARA: Agentic Reproducibility Assessment For Scalable Support Of Scientific Peer-Review

翻译：ARA：面向可扩展科学同行评审支持的代理式可复现性评估

Kevin Riehl,Andres L. Marin,Nikofors Zacharof,Fan Wu,Patrick Langer,Robert Jakob,Anastasios Kouvelas,Georgios Fontaras,Michail A. Makridis

Scientific peer review increasingly struggles to assess reproducibility at the scale and complexity of modern research output. Evaluating reproducibility requires reconstructing experimental dependencies, methodological choices, data flows, and result-generating procedures, which often exceeds what human reviewers can provide. Agentic Reproducibility Assessment (ARA) formalizes reproducibility assessment as a structured reasoning task over scientific documents. Given a paper, ARA extracts a directed workflow graph linking sources, methods, experiments, and outputs, then evaluates its reconstructability using structural and content-based scores for reproducibility assessments. Experiments on 213 ReScience C articles - the largest cross-domain benchmark of human-validated computational reproducibility studies considered to date - demonstrate ARA's generalizability and consistent workflow reconstruction and assessment across LLMs, model temperatures, and scientific domains. ARA achieves ~61% accuracy on three benchmarks, and the highest accuracy reported on ReproBench (60.71% vs. 36.84%) and GoldStandardDB (61.68% vs. 43.56%), highlighting its potential to complement human review at scale and enabling next-generation peer review. Code and Data available: https://github.com/AndresLaverdeMarin/agentic_reproducibility_assessment.

翻译：科学同行评审在应对现代研究成果的规模和复杂性时，越来越难以评估其可复现性。评估可复现性需要重构实验依赖关系、方法论选择、数据流以及结果生成流程，这往往超出了人类评审员的能力范围。代理式可复现性评估（ARA）将可复现性评估形式化为一个基于科学文档的结构化推理任务。给定一篇论文，ARA提取一个有向工作流图，将来源、方法、实验和输出关联起来，然后使用基于结构和内容的可复现性评估分数来评估其可重构性。在213篇ReScience C文章（迄今为止最大规模的跨领域人工验证计算可复现性研究基准）上的实验表明，ARA具有泛化能力，并且在LLM、模型温度和科学领域上可实现一致的工作流重构和评估。ARA在三个基准上达到了约61%的准确率，并在ReproBench（60.71%对36.84%）和GoldStandardDB（61.68%对43.56%）上报告了最高准确率，突显了其在大规模补充人工评审方面的潜力，从而推动了下一代同行评审的发展。代码与数据获取地址：https://github.com/AndresLaverdeMarin/agentic_reproducibility_assessment。

0

相关内容

Agent

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

《可信的医学问答：以评估为中心的综述》

《可信的医学问答：以评估为中心的综述》

专知会员服务

13+阅读 · 2025年6月5日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

阿姆斯特丹大学等最新ACL2022教程《自然语言处理可复现性研究》

阿姆斯特丹大学等最新ACL2022教程《自然语言处理可复现性研究》

专知会员服务

14+阅读 · 2022年5月27日

【AI+军事】附论文+PPT 《使用AI和建模与仿真进行行动后审查（AAR）的创新自动化分析工具》

【AI+军事】附论文+PPT 《使用AI和建模与仿真进行行动后审查（AAR）的创新自动化分析工具》

专知会员服务

21+阅读 · 2022年4月17日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂交互型网络系统的DEA效率评价与资源配置研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

乙酰辅酶A羧化酶ACC同工酶类型转换调控机制及其在肝癌进展中的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

Automated reproducibility assessments in the social and behavioral sciences using large language models

Arxiv

0+阅读 · 6月11日

From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent

Arxiv

0+阅读 · 6月11日

Traxia: A Framework for Verifiable, Agent-Native Scientific Publishing

Arxiv

0+阅读 · 6月6日

Review the Code, Not the Story: A Vision and Protocol for Code-First Peer Review

Arxiv

0+阅读 · 6月5日

The State of Peer Review in Empirical Software Engineering: A Community Survey on Review Load, Quality, and GenAI Use

Arxiv

0+阅读 · 6月3日

An Agentic Approach Towards Replication Package Quality Evaluation

Arxiv

0+阅读 · 6月1日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 6月1日

SPECTRA: Synthetic IR Test Collections with Relevance Oracles and Controlled Distractor Diagnostics

Arxiv

0+阅读 · 5月29日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月15日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

一种Agent自主性风险评估框架 | 最新文献

一种Agent自主性风险评估框架 | 最新文献

专知会员服务

24+阅读 · 2025年10月24日

《可信的医学问答：以评估为中心的综述》

《可信的医学问答：以评估为中心的综述》

专知会员服务

13+阅读 · 2025年6月5日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

阿姆斯特丹大学等最新ACL2022教程《自然语言处理可复现性研究》

阿姆斯特丹大学等最新ACL2022教程《自然语言处理可复现性研究》

专知会员服务

14+阅读 · 2022年5月27日

【AI+军事】附论文+PPT 《使用AI和建模与仿真进行行动后审查（AAR）的创新自动化分析工具》

【AI+军事】附论文+PPT 《使用AI和建模与仿真进行行动后审查（AAR）的创新自动化分析工具》

专知会员服务

21+阅读 · 2022年4月17日

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

【TPAMI】从人机对抗提出视觉跟踪智能评估新方法，Global Instance Tracking: Locating Target More Like Humans

专知会员服务

22+阅读 · 2022年3月29日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

133+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

AACL2020最新《可解释人工智能与自然语言处理可解释性》教程，附159页ppt与视频

专知

25+阅读 · 2020年12月6日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Automated reproducibility assessments in the social and behavioral sciences using large language models

Arxiv

0+阅读 · 6月11日

From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent

Arxiv

0+阅读 · 6月11日

Traxia: A Framework for Verifiable, Agent-Native Scientific Publishing

Arxiv

0+阅读 · 6月6日

Review the Code, Not the Story: A Vision and Protocol for Code-First Peer Review

Arxiv

0+阅读 · 6月5日

The State of Peer Review in Empirical Software Engineering: A Community Survey on Review Load, Quality, and GenAI Use

Arxiv

0+阅读 · 6月3日

An Agentic Approach Towards Replication Package Quality Evaluation

Arxiv

0+阅读 · 6月1日

Scaling Reproducibility: An AI-Assisted Workflow for Large-Scale Replication and Reanalysis

Arxiv

0+阅读 · 6月1日

SPECTRA: Synthetic IR Test Collections with Relevance Oracles and Controlled Distractor Diagnostics

Arxiv

0+阅读 · 5月29日

Argus: Evidence Assembly for Scalable Deep Research Agents

Arxiv

0+阅读 · 5月15日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

相关基金

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂交互型网络系统的DEA效率评价与资源配置研究及应用

国家自然科学基金

0+阅读 · 2015年12月31日

乙酰辅酶A羧化酶ACC同工酶类型转换调控机制及其在肝癌进展中的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

具有可靠性增长的系统可靠性试验鉴定方法研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员