Large Language Models are versatile general-task solvers, and their capabilities can truly assist people with scholarly peer review as \textit{pre-review} agents, if not as fully autonomous \textit{peer-review} agents. While incredibly beneficial, automating academic peer-review, as a concept, raises concerns surrounding safety, research integrity, and the validity of the academic peer-review process. The majority of the studies performing a systematic evaluation of frontier LLMs generating reviews across science disciplines miss the mark on addressing the alignment/misalignment of reviews along with the utility of LLM generated reviews when compared against publication outcomes such as \textbf{Citations}, \textbf{Hit-papers}, \textbf{Novelty}, and \textbf{Disruption}. This paper presents an experimental study in which we gathered ground-truth reviewer ratings from OpenReview and used various frontier open-weight LLMs to generate reviews of papers to gauge the safety and reliability of incorporating LLMs into the scientific review pipeline. Our findings demonstrate the utility of frontier open-weight LLMs as pre-review screening agents despite highlighting fundamental misalignment risks when deployed as autonomous reviewers. Our results show that all models exhibit weak correlation with human peer reviewers (0.15), with systematic overestimation bias of 3-5 points and uniformly high confidence scores (8.0-9.0/10) despite prediction errors. However, we also observed that LLM reviews correlate more strongly with post-publication metrics than with human scores, suggesting potential utility as pre-review screening tools. Our findings highlight the potential and address the pitfalls of automating peer reviews with language models. We open-sourced our dataset $D_{LMRSD}$ to help the research community expand the safety framework of automating scientific reviews.


翻译:大型语言模型是通用的多任务求解器,即使不能作为完全自主的同行评审代理,其能力确实可以作为预审代理协助学术同行评审工作。尽管自动化同行评审具有巨大效益,但这一概念本身引发了关于安全性、研究完整性以及学术同行评审过程有效性的担忧。现有大多数对前沿LLM跨学科生成评审的系统性研究,未能充分评估LLM生成评审与人类评审的一致性/不一致性,也未能结合出版物成果指标(如引用量、高影响力论文、新颖性和颠覆性)来评估LLM生成评审的实用性。本文通过实验研究,从OpenReview平台收集真实评审评分数据,并采用多种前沿开源权重LLM生成论文评审,以评估将LLM纳入科学评审流程的安全性与可靠性。研究发现表明,前沿开源权重LLM作为预审筛选代理具有实用价值,但若部署为自主评审员则存在根本性的错位风险。实验结果显示:所有模型与人类同行评审员均呈现弱相关性(0.15),存在3-5分的系统性高估偏差,且即使在预测错误时仍保持 uniformly high confidence scores (8.0-9.0/10)。然而,我们也观察到LLM生成的评审与发表后计量指标的相关性强于与人类评分的相关性,这提示其作为预审筛选工具的潜在价值。本研究既揭示了语言模型自动化同行评审的潜力,也指出了其潜在缺陷。我们开源了数据集$D_{LMRSD}$,以帮助研究社区扩展自动化科学评审的安全框架。

0
下载
关闭预览

相关内容

ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员