ArXiv recently prohibited the upload of unpublished review papers to its servers in the Computer Science domain, citing a high prevalence of LLM-generated content in these categories. However, this decision was not accompanied by quantitative evidence. In this work, we investigate this claim by measuring the proportion of LLM-generated content in review vs. non-review research papers in recent years. Using two high-quality detection methods, we find a substantial increase in LLM-generated content across both review and non-review papers, with a higher prevalence in review papers. However, when considering the number of LLM-generated papers published in each category, the estimates of non-review LLM-generated papers are almost six times higher. Furthermore, we find that this policy will affect papers in certain domains far more than others, with the CS subdiscipline Computers & Society potentially facing cuts of 50%. Our analysis provides an evidence-based framework for evaluating such policy decisions, and we release our code to facilitate future investigations at: https://github.com/yanaiela/llm-review-arxiv.


翻译:arXiv近期禁止在其计算机科学领域服务器上传未发表的综述论文,理由是这些类别中LLM生成内容的比例过高。然而,该决策并未提供定量证据支持。在本研究中,我们通过测量近年来综述与非综述研究论文中LLM生成内容的比例来验证这一说法。使用两种高质量的检测方法,我们发现综述与非综述论文中LLM生成内容均显著增加,其中综述论文中的比例更高。但若考虑各类别中发表的LLM生成论文数量,非综述类LLM生成论文的估计值高出近六倍。此外,我们发现该政策对某些领域论文的影响将远大于其他领域,其中计算机科学子学科“计算机与社会”可能面临50%的削减。我们的分析为评估此类政策决策提供了基于证据的框架,并公开代码以促进未来研究:https://github.com/yanaiela/llm-review-arxiv。

0
下载
关闭预览

相关内容

论文(Paper)是专知网站核心资料文档,包括全球顶级期刊、顶级会议论文,及全球顶尖高校博士硕士学位论文。重点关注中国计算机学会推荐的国际学术会议和期刊,CCF-A、B、C三类。通过人机协作方式,汇编、挖掘后呈现于专知网站。
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
ICRA 2020 中的SLAM论文汇总(一)VSLAM
计算机视觉life
25+阅读 · 2020年8月18日
【资源】元学习论文分类列表推荐
专知
19+阅读 · 2019年12月3日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《大型语言模型自然语言生成评估》综述
专知会员服务
72+阅读 · 2024年1月20日
如何检测LLM内容?UCSB等最新首篇《LLM生成内容检测》综述
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员