Paper weakness identification using single-agent or multi-agent LLMs has attracted increasing attention, yet existing approaches exhibit key limitations. Many multi-agent systems simulate human roles at a surface level, missing the underlying criteria that lead experts to assess complementary intellectual aspects of a paper. Moreover, prior methods implicitly assume identified weaknesses are valid, ignoring reviewer bias, misunderstanding, and the critical role of author rebuttals in validating review quality. Finally, most systems output unranked weakness lists, rather than prioritizing the most consequential issues for users. In this work, we propose DIAGPaper, a novel multi-agent framework that addresses these challenges through three tightly integrated modules. The customizer module simulates human-defined review criteria and instantiates multiple reviewer agents with criterion-specific expertise. The rebuttal module introduces author agents that engage in structured debate with reviewer agents to validate and refine proposed weaknesses. The prioritizer module learns from large-scale human review practices to assess the severity of validated weaknesses and surfaces the top-K severest ones to users. Experiments on two benchmarks, AAAR and ReviewCritique, demonstrate that DIAGPaper substantially outperforms existing methods by producing more valid and more paper-specific weaknesses, while presenting them in a user-oriented, prioritized manner.


翻译:利用单智能体或多智能体大语言模型进行论文缺陷识别已受到越来越多的关注,但现有方法存在关键局限。许多多智能体系统仅表面模拟人类角色,未能捕捉导致专家评估论文互补性智力层面的深层标准。此外,先前方法隐含假设识别出的缺陷是有效的,忽视了审稿人偏见、误解以及作者反驳在验证评审质量中的关键作用。最后,多数系统输出未经排序的缺陷列表,而非为用户优先呈现最具影响的问题。本研究提出DIAGPaper——一个通过三个紧密耦合的模块应对上述挑战的新型多智能体框架。定制器模块模拟人类定义的评审标准,并实例化多个具备特定标准专业知识的审稿人智能体。反驳模块引入作者智能体,与审稿人智能体进行结构化辩论,以验证并精炼提出的缺陷。优先级排序模块从大规模人工评审实践中学习,评估已验证缺陷的严重程度,并向用户呈现最严重的K个缺陷。在AAAR和ReviewCritique两个基准上的实验表明,DIAGPaper显著优于现有方法,能生成更有效且更具论文针对性的缺陷,并以用户导向的优先级排序方式呈现。

0
下载
关闭预览

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI智能体与代理式AI:概念分类、应用与挑战
专知会员服务
26+阅读 · 2025年5月17日
从大语言模型推理到自主AI智能体:一项全面综述
专知会员服务
48+阅读 · 2025年5月8日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
人工智能顶刊TPAMI2019最新《多模态机器学习综述》
人工智能学家
29+阅读 · 2019年1月19日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
31+阅读 · 2月2日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI智能体与代理式AI:概念分类、应用与挑战
专知会员服务
26+阅读 · 2025年5月17日
从大语言模型推理到自主AI智能体:一项全面综述
专知会员服务
48+阅读 · 2025年5月8日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员