Peer review remains the central quality-control mechanism of science, yet its ability to fulfill this role is increasingly strained. Empirical studies document serious shortcomings: long publication delays, escalating reviewer burden concentrated on a small minority of scholars, inconsistent quality and low inter-reviewer agreement, and systematic biases by gender, language, and institutional prestige. Decades of human-centered reforms have yielded only marginal improvements. Meanwhile, artificial intelligence, especially large language models (LLMs), is being piloted across the peer-review pipeline by journals, funders, and individual reviewers. Early studies suggest that AI assistance can produce reviews comparable in quality to humans, accelerate reviewer selection and feedback, and reduce certain biases, but also raise distinctive concerns about hallucination, confidentiality, gaming, novelty recognition, and loss of trust. In this paper, we map the aims and persistent failure modes of peer review to specific LLM applications and systematically analyze the objections they raise alongside safeguards that could make their use acceptable. Drawing on emerging evidence, we show that targeted, supervised LLM assistance can plausibly improve error detection, timeliness, and reviewer workload without displacing human judgment. We highlight advanced architectures, including fine-tuned, retrieval-augmented, and multi-agent systems, that may enable more reliable, auditable, and interdisciplinary review. We argue that ethical and practical considerations are not peripheral but constitutive: the legitimacy of AI-assisted peer review depends on governance choices as much as technical capacity. The path forward is neither uncritical adoption nor reflexive rejection, but carefully scoped pilots with explicit evaluation metrics, transparency, and accountability.


翻译:同行评议仍是科学质量管控的核心机制,但其履行这一职能的能力正日益承压。实证研究揭示了若干严重缺陷:漫长的发表延迟、集中于少数研究者的日益加重的评审负担、评审质量参差不齐且评审者间一致性低,以及因性别、语言和机构声望导致的系统性偏见。数十年以人为中心的改革仅带来边际改善。与此同时,人工智能,尤其是大语言模型(LLMs),正被期刊、资助机构和个体评审者在同行评议全流程中试点应用。早期研究表明,AI辅助生成的评审意见在质量上可与人类评审相媲美,能加速评审者遴选与反馈流程,并减少特定偏见,但也引发了关于幻觉、保密性、博弈行为、创新性识别以及信任流失等独特问题。本文通过将同行评议的目标与固有缺陷映射至具体的LLM应用场景,系统分析了相关质疑以及可能使其应用被接受的保障措施。基于新兴证据,我们表明在受监督的前提下,针对性地使用LLM辅助,有望在无需取代人类判断的情况下,切实改进错误检测、时效性和评审工作量。我们重点探讨了包括微调模型、检索增强生成和多智能体系统在内的先进架构,这些架构可能实现更可靠、可审计且跨学科的评审。我们认为,伦理与实践考量并非边缘问题而是构成性要素:AI辅助同行评议的合法性既取决于技术能力,也同等依赖于治理选择。未来之路既非盲目采用亦非条件反射式拒绝,而应是在明确评估指标、透明度和问责制框架下,开展审慎界定的试点研究。

0
下载
关闭预览

相关内容

《关于未来人工智能研究的报告》最新91页
专知会员服务
52+阅读 · 2025年3月2日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
137+阅读 · 2023年7月31日
《2022年人工智能重要方向进展与未来展望报告》
专知会员服务
67+阅读 · 2022年10月15日
2019版CCF推荐国际学术会议和期刊目录发布!AI领域七大A类会议,你认同吗?
黑龙江大学自然语言处理实验室
10+阅读 · 2019年5月1日
人工智能的现状与未来(附PPT)
人工智能学家
76+阅读 · 2019年3月27日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
2+阅读 · 今天13:08
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 今天12:58
【博士论文】面向城市环境的可解释计算机视觉
专知会员服务
0+阅读 · 今天12:57
大语言模型的自改进机制:技术综述与未来展望
专知会员服务
0+阅读 · 今天12:50
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
相关VIP内容
《关于未来人工智能研究的报告》最新91页
专知会员服务
52+阅读 · 2025年3月2日
推荐!《人与AI协作中的可解释人工智能》320页论文
专知会员服务
137+阅读 · 2023年7月31日
《2022年人工智能重要方向进展与未来展望报告》
专知会员服务
67+阅读 · 2022年10月15日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员