Automated scholarly paper review (ASPR) has entered the coexistence phase with traditional peer review, where artificial intelligence (AI) systems are increasingly incorporated into real-world manuscript evaluation. In parallel, research on automated and AI-assisted peer review has proliferated. Despite this momentum, empirical progress remains constrained by several critical limitations in existing datasets. While reviewers routinely evaluate figures, tables, and complex layouts to assess scientific claims, most existing datasets remain overwhelmingly text-centric. This bias is reinforced by a narrow focus on data from computer science venues. Furthermore, these datasets lack precise alignment between reviewer comments and specific manuscript versions, obscuring the iterative relationship between peer review and manuscript evolution. In response, we introduce FMMD, a multimodal and multidisciplinary open peer review dataset curated from F1000Research. The dataset bridges the current gap by integrating manuscript-level visual and structural data with version-specific reviewer reports and editorial decisions. By providing explicit alignment between reviewer comments and the exact article iteration under review, FMMD enables fine-grained analysis of the peer review lifecycle across diverse scientific domains. FMMD supports tasks such as multimodal issue detection and multimodal review comment generation. It provides a comprehensive empirical resource for the development of peer review research.


翻译:自动化论文评审(ASPR)已进入与传统同行评审共存的阶段,人工智能(AI)系统正日益融入现实稿件评审流程。与此同时,自动化和AI辅助同行评审的研究也迅速增长。尽管发展势头迅猛,但实证研究仍受限于现有数据集的多重关键缺陷。虽然评审人通常通过评估图表、表格和复杂版式来验证科学主张,但现有数据集绝大多数仍以文本为中心。这种偏差因过度依赖计算机科学领域的数据而进一步加剧。此外,这些数据集缺乏评审意见与特定稿件版本间的精确对应关系,掩盖了同行评审与稿件演进之间的迭代关联。为此,我们推出FMMD——一个基于F1000Research构建的多模态跨学科开放同行评审数据集。该数据集通过整合稿件层级的视觉与结构数据、版本特定的评审报告及编辑决策,弥补了当前空白。通过建立评审意见与被审文章具体迭代版本的显式关联,FMMD支持跨学科领域的同行评审生命周期细粒度分析。本数据集支持多模态问题检测、多模态评审意见生成等任务,为同行评审研究的发展提供了全面的实证资源。

0
下载
关闭预览

相关内容

MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
【CVPR2021】细粒度多标签分类
专知
44+阅读 · 2021年3月8日
最新开源 RGBD+IMU数据集:FMDataset
计算机视觉life
42+阅读 · 2019年9月21日
学界 | ACL 2019 论文收录数据官方详解!
AI科技评论
24+阅读 · 2019年7月3日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
资源:10份机器阅读理解数据集 | 论文集精选 #02
PaperWeekly
11+阅读 · 2017年9月16日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
MME-Survey:多模态大型语言模型评估的综合性调查
专知会员服务
43+阅读 · 2024年12月1日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员