Commitment Checklist: Auditing Author Commitments in Peer Review - 专知论文

会员服务 ·

0

同行评审 · 论文 · 包含 · 代码 · 系统 ·

Commitment Checklist: Auditing Author Commitments in Peer Review

翻译：承诺核查清单：同行评审中作者承诺的审计

Chung-Chi Chen,Iryna Gurevych

Peer review author responses often include commitments to add experiments, release code, or clarify content in the final paper. Yet, there is currently no systematic mechanism to ensure authors fulfill these promises. In this position paper, we present a large-scale audit of author commitments using large language models (LLMs) to compare rebuttals against camera-ready versions. Analyzing the commitments from ICLR-2025 and EMNLP-2024, we find that while a majority of promised changes are implemented, a significant share (about 25%) are not, with "missing experiments" and other high-impact items among the most frequently unfulfilled. We demonstrate that LLM-based tools can feasibly detect the promises. Finally, we propose the idea of Author Commitment Checklist, which would alert authors and organizers to unaddressed promises, increasing accountability and strengthening the integrity of the peer review process. We discuss the benefits of this practice and advocate for its adoption in future conferences.

翻译：同行评审的作者回复中常包含对最终论文增加实验、发布代码或澄清内容的承诺。然而，目前尚无系统性机制确保作者履行这些承诺。在本立场论文中，我们利用大语言模型（LLMs）对作者承诺进行了大规模审计，通过对比驳论与最终版论文。分析ICLR-2025和EMNLP-2024的承诺后发现，尽管大部分承诺变更已实施，但仍有相当比例（约25%）未兑现，其中“缺失实验”及其他高影响力条目是最常未履行的承诺之一。我们证明基于LLM的工具能够可行地检测出这些承诺。最后，我们提出作者承诺核查清单（Author Commitment Checklist）的概念，该清单可提醒作者和组织者未处理的承诺，增强问责机制并强化同行评审过程的完整性。我们讨论了这一实践的益处，并倡导在未来的会议中采用该方法。

0

相关内容

同行评审

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

《可信的医学问答：以评估为中心的综述》

《可信的医学问答：以评估为中心的综述》

专知会员服务

13+阅读 · 2025年6月5日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

48+阅读 · 2023年10月25日

大模型如何可信？字节跳动李航等最新《可信赖的大型语言模型》综述，提出可信大模型七大维度，81页pdf

大模型如何可信？字节跳动李航等最新《可信赖的大型语言模型》综述，提出可信大模型七大维度，81页pdf

专知会员服务

88+阅读 · 2023年8月12日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

专知

23+阅读 · 2021年1月17日

ICLR 2020，你的论文提供代码了吗？这届评审不好惹

ICLR 2020，你的论文提供代码了吗？这届评审不好惹

专知

39+阅读 · 2019年10月15日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

ACL 2019 接收论文榜单发布，我们做了可视化分析

ACL 2019 接收论文榜单发布，我们做了可视化分析

机器之心

17+阅读 · 2019年6月13日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

大数据文摘

12+阅读 · 2018年11月30日

BMC新举措，审稿过程更清晰，投稿更放心

BMC新举措，审稿过程更清晰，投稿更放心

科研圈

27+阅读 · 2018年10月24日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

上市公司内部控制重大缺陷披露行为选择研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent

Arxiv

0+阅读 · 6月11日

Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review

Arxiv

0+阅读 · 6月10日

AuditFraudBench: Benchmarking Audit Judgment in Detecting Fraudulent Misstatements

Arxiv

0+阅读 · 6月6日

Review the Code, Not the Story: A Vision and Protocol for Code-First Peer Review

Arxiv

0+阅读 · 6月5日

The State of Peer Review in Empirical Software Engineering: A Community Survey on Review Load, Quality, and GenAI Use

Arxiv

0+阅读 · 6月3日

Inferring Code Correctness from Specification

Arxiv

0+阅读 · 5月28日

LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers

Arxiv

0+阅读 · 5月25日

Rejoinder: The ICML 2023 Ranking Experiment: Examining Author Self-Assessment in ML/AI Peer Review

Arxiv

0+阅读 · 5月24日

LegalCiteBench: Evaluating Citation Reliability in Legal Language Models

Arxiv

0+阅读 · 5月11日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

《可信的医学问答：以评估为中心的综述》

《可信的医学问答：以评估为中心的综述》

专知会员服务

13+阅读 · 2025年6月5日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

《大型语言模型自然语言生成评估》综述

《大型语言模型自然语言生成评估》综述

专知会员服务

72+阅读 · 2024年1月20日

天大最新《大型语言模型评估》全面综述，111页pdf

天大最新《大型语言模型评估》全面综述，111页pdf

专知会员服务

88+阅读 · 2023年10月31日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

48+阅读 · 2023年10月25日

大模型如何可信？字节跳动李航等最新《可信赖的大型语言模型》综述，提出可信大模型七大维度，81页pdf

大模型如何可信？字节跳动李航等最新《可信赖的大型语言模型》综述，提出可信大模型七大维度，81页pdf

专知会员服务

88+阅读 · 2023年8月12日

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

如何评估大模型？吉大微软亚研等最新《大型语言模型评估》综述，全面阐述大模型评估方法体系

专知会员服务

88+阅读 · 2023年7月13日

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

评估ChatGPT的信息提取能力:对性能、可解释性、校准和忠实度的评估

专知会员服务

77+阅读 · 2023年4月26日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

专知

23+阅读 · 2021年1月17日

ICLR 2020，你的论文提供代码了吗？这届评审不好惹

ICLR 2020，你的论文提供代码了吗？这届评审不好惹

专知

39+阅读 · 2019年10月15日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

ACL 2019 接收论文榜单发布，我们做了可视化分析

ACL 2019 接收论文榜单发布，我们做了可视化分析

机器之心

17+阅读 · 2019年6月13日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

最新NLP论文阅读列表，包括对话、问答、摘要、翻译等（附资源）

THU数据派

11+阅读 · 2019年3月25日

深度 | 推荐系统评估

深度 | 推荐系统评估

AI100

24+阅读 · 2019年3月16日

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

学界 | 全流程！清华博导给出的学术论文写作方法和技巧（244页）

大数据文摘

12+阅读 · 2018年11月30日

BMC新举措，审稿过程更清晰，投稿更放心

BMC新举措，审稿过程更清晰，投稿更放心

科研圈

27+阅读 · 2018年10月24日

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

【论文推荐】最新七篇推荐系统相关论文—影响兴趣、知识Embeddings、音乐推荐、非结构化、一致性、显式和隐式特征、知识图谱

专知

14+阅读 · 2018年3月28日

相关论文

From Passive Generation to Investigation: A Proactive Scientific Peer Review Agent

Arxiv

0+阅读 · 6月11日

Does AI Reviewer See the Full Picture? Attacking and Defending Multimodal Peer Review

Arxiv

0+阅读 · 6月10日

AuditFraudBench: Benchmarking Audit Judgment in Detecting Fraudulent Misstatements

Arxiv

0+阅读 · 6月6日

Review the Code, Not the Story: A Vision and Protocol for Code-First Peer Review

Arxiv

0+阅读 · 6月5日

The State of Peer Review in Empirical Software Engineering: A Community Survey on Review Load, Quality, and GenAI Use

Arxiv

0+阅读 · 6月3日

Inferring Code Correctness from Specification

Arxiv

0+阅读 · 5月28日

LLM-as-a-Reviewer: Benchmarking Their Ability, Divergence, and Prompt Injection Resistance as Paper Reviewers

Arxiv

0+阅读 · 5月25日

Rejoinder: The ICML 2023 Ranking Experiment: Examining Author Self-Assessment in ML/AI Peer Review

Arxiv

0+阅读 · 5月24日

LegalCiteBench: Evaluating Citation Reliability in Legal Language Models

Arxiv

0+阅读 · 5月11日

Demanding peer review is associated with higher impact in published science

Arxiv

0+阅读 · 4月15日

相关基金

基于量子模糊承诺体系的生物身份认证系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

社会信任程度对于审计师行为的影响及经济后果研究——基于事务所和签字审计师层面

国家自然科学基金

0+阅读 · 2015年12月31日

上市公司内部控制重大缺陷披露行为选择研究

国家自然科学基金

0+阅读 · 2015年12月31日

非确定型Web服务流程重组的可靠性验证技术

国家自然科学基金

1+阅读 · 2015年12月31日

复杂工程产品基于多可信度近似的设计优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

中英文论文中的中国作者姓名消歧研究

国家自然科学基金

0+阅读 · 2014年12月31日

在线服务信誉可比较性及其保障机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员