PeerCheck: Enhancing LLM-Generated Academic Reviews Towards Human-Level Quality - 专知论文

会员服务 ·

0

CoT · Processing（编程语言） · 语言模型化 · MoDELS · 评论员 ·

PeerCheck: Enhancing LLM-Generated Academic Reviews Towards Human-Level Quality

翻译：暂无翻译

Zeyuan Chen,Ziqing Yang,Yihan Ma,Michael Backes,Yang Zhang

As academic submissions grow, the traditional peer review process struggles to keep up, raising concerns about quality and fairness. A trend of using large language models (LLMs) for assistance has emerged. In this work, we take a critical step toward improving the quality of LLM-generated reviews. We propose the PeerCheck framework, which investigates LLM-human review differences (RQ1) and explores methods to improve LLM-generated review quality (RQ2). We first analyzed the human-written reviews with reviews generated by various LLMs and found that LLMs and humans focus on different terms, e.g., LLMs prioritize theory while humans emphasize methodology and experiments. We further adopt prompt engineering, such as Chain-of-Thought (CoT), and utilize retrieval-augmented generation (RAG) to enhance the LLM-generated reviews towards human-level quality. We find CoT significantly improves the quality of LLM reviews, while we discover an unexpected "RAG paradox," i.e., experiments with RAG produce different results for various LLMs and, in some cases, even reduce review quality. Our comprehensive analysis of LLM-generated academic reviews illustrates both possibilities and limitations, contributing to a more effective, human-aligned review system. Our dataset is available on https://github.com/TrustAIRLab/PeerCheck.

翻译：暂无翻译

0

相关内容

CoT

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

专知会员服务

26+阅读 · 2024年11月19日

上海交大姚振鹏副教授团队在《Nature Reviews Materials》发表人工智能加速材料发现综述论文

上海交大姚振鹏副教授团队在《Nature Reviews Materials》发表人工智能加速材料发现综述论文

专知会员服务

24+阅读 · 2022年10月31日

ACL 2022论文奖项公布，伯克利摘得最佳论文，陈丹琦、杨笛一等华人团队获杰出论文

ACL 2022论文奖项公布，伯克利摘得最佳论文，陈丹琦、杨笛一等华人团队获杰出论文

专知会员服务

19+阅读 · 2022年5月17日

如何做好科研？德国图宾根大学Andreas这份《科研阅读、写作与报告》82页PPT，手把手教你实操科研: 读写评讲论文

如何做好科研？德国图宾根大学Andreas这份《科研阅读、写作与报告》82页PPT，手把手教你实操科研: 读写评讲论文

专知会员服务

220+阅读 · 2022年4月13日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

自然语言处理顶会EMNLP2021奖项公布，剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖

自然语言处理顶会EMNLP2021奖项公布，剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖

专知会员服务

14+阅读 · 2021年10月31日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

【走进清华研究生教改】妙手著文章:《行云流水——工科的中文写作》

【走进清华研究生教改】妙手著文章:《行云流水——工科的中文写作》

清华大学研究生教育

12+阅读 · 2019年9月3日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

AAAI 2019最佳论文公布，CMU、斯坦福、MIT上榜

AAAI 2019最佳论文公布，CMU、斯坦福、MIT上榜

新智元

12+阅读 · 2019年1月28日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

PaperWeekly

12+阅读 · 2017年12月14日

资助《数学进展》期刊

国家自然科学基金

3+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

我国开放教育资源项目质量监测评价及质量保证策略研究——基于用户满意度视角

国家自然科学基金

1+阅读 · 2015年12月31日

系统科学与复杂性学报（英文版）

国家自然科学基金

12+阅读 · 2015年12月31日

提升《高校应用数学学报》的影响力

国家自然科学基金

0+阅读 · 2015年8月31日

基于“投入-产出”的专业学位质量评估模型的构建与实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

创业型大学学术创业的实现机制及激励政策研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

《数学译林》

国家自然科学基金

2+阅读 · 2014年12月31日

SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

Arxiv

0+阅读 · 6月23日

Benchmarking LLMs' Mathematical Reasoning with Unseen Random Variables Questions

Arxiv

0+阅读 · 6月23日

Policies Permitting LLM Use for Polishing Peer Reviews Are Currently Not Enforceable

Arxiv

0+阅读 · 6月23日

Why Machines Misread Pedagogical Quality: Human-Machine Alignment in LLM-Based Pretest Question Evaluation

Arxiv

0+阅读 · 6月22日

Judgment-Grounded Expansion for Peer Review Generation

Arxiv

0+阅读 · 6月22日

AI and the Future of Academic Peer Review

Arxiv

0+阅读 · 6月21日

Rebuttals Move Peer-Review Scores, but Initial-Review Structure Bounds the Movement

Arxiv

0+阅读 · 6月20日

Enhancing Diversity of LLM-Generated Educational Tasks

Arxiv

0+阅读 · 6月20日

Which Review Aspect Has a Greater Impact on the Duration of Open Peer Review in Multiple Rounds? -- Evidence from Nature Communications

Arxiv

0+阅读 · 6月20日

TopVenues: A Reproducible Corpus and Tooling Substrate for Cybersecurity Literature Reviews

Arxiv

0+阅读 · 6月16日

VIP会员

文章信息

相关主题

Processing（编程语言）

语言模型化

最新内容

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

专知会员服务

6+阅读 · 今天11:19

2025年全球二十起重大无人机作战事件

2025年全球二十起重大无人机作战事件

专知会员服务

2+阅读 · 今天10:39

现代战争的隐蔽系统：伊朗战争十大启示

现代战争的隐蔽系统：伊朗战争十大启示

专知会员服务

3+阅读 · 今天3:58

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

4+阅读 · 6月26日

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

7+阅读 · 6月26日

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

14+阅读 · 6月26日

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

5+阅读 · 6月26日

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

4+阅读 · 6月26日

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

3+阅读 · 6月26日

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

9+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

9+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

相关VIP内容

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

从自我进化视角出发，全面解析LLM的推理能力技术演进路径

专知会员服务

22+阅读 · 2025年3月6日

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

最高9.0分！这16篇最高分ICLR2025论文必看！从生成模型到MOE等

专知会员服务

26+阅读 · 2024年11月19日

上海交大姚振鹏副教授团队在《Nature Reviews Materials》发表人工智能加速材料发现综述论文

上海交大姚振鹏副教授团队在《Nature Reviews Materials》发表人工智能加速材料发现综述论文

专知会员服务

24+阅读 · 2022年10月31日

ACL 2022论文奖项公布，伯克利摘得最佳论文，陈丹琦、杨笛一等华人团队获杰出论文

ACL 2022论文奖项公布，伯克利摘得最佳论文，陈丹琦、杨笛一等华人团队获杰出论文

专知会员服务

19+阅读 · 2022年5月17日

如何做好科研？德国图宾根大学Andreas这份《科研阅读、写作与报告》82页PPT，手把手教你实操科研: 读写评讲论文

如何做好科研？德国图宾根大学Andreas这份《科研阅读、写作与报告》82页PPT，手把手教你实操科研: 读写评讲论文

专知会员服务

220+阅读 · 2022年4月13日

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

【USC-Aaron Chan博士答辩Slides】可信自然语言处理机器解释的生成与利用, 242页ppt，Generating and Utilizing Machine Explanations for Trustworthy NLP

专知会员服务

16+阅读 · 2022年3月13日

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

百度北京大学发布首篇《自然语言生成保真性》综述论文，52页pdf系统性阐述NLG分析、评价和优化方法

专知会员服务

28+阅读 · 2022年3月11日

自然语言处理顶会EMNLP2021奖项公布，剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖

自然语言处理顶会EMNLP2021奖项公布，剑桥刘方宇、哥大杨子小帆一作论文分获最佳长、短论文奖

专知会员服务

14+阅读 · 2021年10月31日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

FlowQA: Grasping Flow in History for Conversational Machine Comprehension

专知会员服务

34+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

2025年全球二十起重大无人机作战事件

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

五角大楼启动“智能体网络”以推进人工智能赋能的战斗管理与目标打击

现代战争的隐蔽系统：伊朗战争十大启示

相关资讯

【走进清华研究生教改】妙手著文章:《行云流水——工科的中文写作》

【走进清华研究生教改】妙手著文章:《行云流水——工科的中文写作》

清华大学研究生教育

12+阅读 · 2019年9月3日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软机器阅读理解在一场多轮对话挑战中媲美人类

微软丹棱街5号

19+阅读 · 2019年5月14日

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

Github项目推荐 | 语义分割、实例分割、全景分割和视频分割的论文和基准列表

AI研习社

32+阅读 · 2019年4月5日

AAAI 2019最佳论文公布，CMU、斯坦福、MIT上榜

AAAI 2019最佳论文公布，CMU、斯坦福、MIT上榜

新智元

12+阅读 · 2019年1月28日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

每周论文清单：高质量文本生成，多模态情感分析，还有一大波GAN | PaperDaily #26

PaperWeekly

12+阅读 · 2017年12月14日

相关论文

SciZoom: A Large-scale Benchmark for Hierarchical Scientific Summarization across the LLM Era

Arxiv

0+阅读 · 6月23日

Benchmarking LLMs' Mathematical Reasoning with Unseen Random Variables Questions

Arxiv

0+阅读 · 6月23日

Policies Permitting LLM Use for Polishing Peer Reviews Are Currently Not Enforceable

Arxiv

0+阅读 · 6月23日

Why Machines Misread Pedagogical Quality: Human-Machine Alignment in LLM-Based Pretest Question Evaluation

Arxiv

0+阅读 · 6月22日

Judgment-Grounded Expansion for Peer Review Generation

Arxiv

0+阅读 · 6月22日

AI and the Future of Academic Peer Review

Arxiv

0+阅读 · 6月21日

Rebuttals Move Peer-Review Scores, but Initial-Review Structure Bounds the Movement

Arxiv

0+阅读 · 6月20日

Enhancing Diversity of LLM-Generated Educational Tasks

Arxiv

0+阅读 · 6月20日

Which Review Aspect Has a Greater Impact on the Duration of Open Peer Review in Multiple Rounds? -- Evidence from Nature Communications

Arxiv

0+阅读 · 6月20日

TopVenues: A Reproducible Corpus and Tooling Substrate for Cybersecurity Literature Reviews

Arxiv

0+阅读 · 6月16日

相关基金

资助《数学进展》期刊

国家自然科学基金

3+阅读 · 2015年12月31日

大型复杂医学领域本体质量评估理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络本体质量及适应性的评估研究

国家自然科学基金

0+阅读 · 2015年12月31日

我国开放教育资源项目质量监测评价及质量保证策略研究——基于用户满意度视角

国家自然科学基金

1+阅读 · 2015年12月31日

系统科学与复杂性学报（英文版）

国家自然科学基金

12+阅读 · 2015年12月31日

提升《高校应用数学学报》的影响力

国家自然科学基金

0+阅读 · 2015年8月31日

基于“投入-产出”的专业学位质量评估模型的构建与实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

创业型大学学术创业的实现机制及激励政策研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

《数学译林》

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员