ChatGPT and generative AI tools are becoming the new reality. This work is motivated by the premise that ``ChatGPT content may exhibit a distinctive behavior that can be separated from scientific articles''. In this study, we demonstrate how we tested this premise in two phases and prove its validity. Subsequently, we introduce xFakeSci, a novel learning algorithm, that is capable of distinguishing ChatGPT-generated articles from publications produced by scientists. The algorithm is trained using network models driven from multiple types of data sources, such as ChatGPT-generated documents achieved by means of prompt-engineering, and PubMed articles. To mitigate over-fitting issues, we incorporate a calibration step that is built upon data-driven heuristics, including ratios. We evaluate the algorithm across multiple datasets covering publication periods and diseases (cancer, depression, and Alzheimer's). Further, we show how the algorithm is benchmarked against the state-of-the-art (SOTA) algorithms. While the xFakeSci algorithm achieve F1 score ranging from 80% - 94%, SOTA algorithms score F1 values between 38% - 52%. We attribute the noticeable difference to the introduction of calibration and a proximity distance heuristic, which we underscore this promising performance. Indeed, the prediction of fake science generated by ChatGPT presents a considerable challenge. Nonetheless, the introduction of xFakeSci algorithm is a significant step on the way to combating fake science.


翻译:ChatGPT与生成式人工智能工具正成为新常态。本研究基于“ChatGPT内容可能展现出区别于科学文章的独特行为模式”这一假设展开。我们通过两个阶段的实验验证了该假设的有效性,并提出了一种新型学习算法xFakeSci,该算法能够区分ChatGPT生成的论文与科学家撰写的真实出版物。算法利用多源数据驱动的网络模型进行训练,包括通过提示工程获得的ChatGPT生成文档以及PubMed论文。为缓解过拟合问题,我们引入了基于数据驱动启发式方法(如比率指标)的校准步骤。我们使用涵盖不同发表时期和疾病领域(癌症、抑郁症、阿尔茨海默病)的多组数据集评估该算法性能,并与当前最优算法进行对比实验。结果显示,xFakeSci算法的F1分数达到80%-94%,而最优算法仅为38%-52%。我们将其显著优势归因于所引入的校准步骤和邻近距离启发式方法。尽管预测ChatGPT生成的虚假科学研究面临重大挑战,但xFakeSci算法的提出为对抗虚假科学迈出了关键一步。

0
下载
关闭预览

相关内容

ChatGPT(全名:Chat Generative Pre-trained Transformer),美国OpenAI 研发的聊天机器人程序 [1] ,于2022年11月30日发布 。ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文任务。 [1] https://openai.com/blog/chatgpt/
Linux导论,Introduction to Linux,96页ppt
专知会员服务
82+阅读 · 2020年7月26日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
34+阅读 · 2019年10月18日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
《DeepGCNs: Making GCNs Go as Deep as CNNs》
专知会员服务
32+阅读 · 2019年10月17日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
164+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2024年4月24日
Arxiv
0+阅读 · 2024年4月20日
Arxiv
0+阅读 · 2024年4月19日
VIP会员
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
1+阅读 · 15分钟前
战场人工智能:增强陆地作战能力的发现与要求
专知会员服务
0+阅读 · 25分钟前
以人工智能为中心的指挥控制
专知会员服务
0+阅读 · 48分钟前
《基于深度强化学习的反无人机技术研究》178页
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
9+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
3+阅读 · 6月10日
马赛克战:俄乌战场透析
专知会员服务
16+阅读 · 6月10日
《利用人工智能增强军事决策》
专知会员服务
7+阅读 · 6月10日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
IJCAI | Cascade Dynamics Modeling with Attention-based RNN
KingsGarden
13+阅读 · 2017年7月16日
From Softmax to Sparsemax-ICML16(1)
KingsGarden
74+阅读 · 2016年11月26日
相关基金
国家自然科学基金
13+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员