In recent years, fake news detection has received increasing attention in public debate and scientific research. Despite advances in detection techniques, the production and spread of false information have become more sophisticated, driven by Large Language Models (LLMs) and the amplification power of social media. We present a critical assessment of 12 representative fake news detection approaches, spanning traditional machine learning, deep learning, transformers, and specialized cross-domain architectures. We evaluate these methods on 10 publicly available datasets differing in genre, source, topic, and labeling rationale. We address text-only English fake news detection as a binary classification task by harmonizing labels into "Real" and "Fake" to ensure a consistent evaluation protocol. We acknowledge that label semantics vary across datasets and that harmonization inevitably removes such semantic nuances. Each dataset is treated as a distinct domain. We conduct in-domain, multi-domain and cross-domain experiments to simulate real-world scenarios involving domain shift and out-of-distribution data. Fine-tuned models perform well in-domain but struggle to generalize. Cross-domain architectures can reduce this gap but are data-hungry, while LLMs offer a promising alternative through zero- and few-shot learning. Given inherent dataset confounds and possible pre-training exposure, results should be interpreted as robustness evaluations within this English, text-only protocol.


翻译:近年来,假新闻检测在公共辩论和科学研究中受到越来越多的关注。尽管检测技术不断进步,但大型语言模型(LLMs)和社交媒体的放大效应使得虚假信息的生成与传播变得更加复杂。我们对12种具有代表性的假新闻检测方法进行了批判性评估,涵盖传统机器学习、深度学习、Transformer以及专门的跨领域架构。我们在10个公开数据集上评估了这些方法,这些数据集在体裁、来源、主题和标注逻辑上各不相同。我们将英文纯文本假新闻检测视为二分类任务,通过将标签统一为“真实”和“虚假”来确保一致的评估协议。我们承认不同数据集的标签语义存在差异,且统一化不可避免地会消除这些语义细微差别。每个数据集被视为一个独立领域。我们进行了领域内、多领域和跨领域实验,以模拟涉及领域偏移和分布外数据的真实场景。微调模型在领域内表现良好,但难以泛化。跨领域架构可以缩小这一差距,但数据需求高,而LLMs通过零样本和少样本学习提供了一种有前景的替代方案。考虑到固有的数据集混淆因素和可能的预训练暴露,结果应被视为在此英文纯文本协议下的鲁棒性评估。

0
下载
关闭预览

相关内容

《多模态假新闻检测框架》2023最新80页论文
专知会员服务
45+阅读 · 2023年10月30日
基于多模态学习的虚假新闻检测研究
专知会员服务
34+阅读 · 2023年9月8日
专知会员服务
34+阅读 · 2021年9月14日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
深度伪造与检测技术综述(中文版),25页pdf
专知
13+阅读 · 2020年12月12日
异常检测论文大列表:方法、应用、综述
专知
126+阅读 · 2019年7月15日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
一文看懂虚假新闻检测(附数据集 & 论文推荐)
PaperWeekly
36+阅读 · 2019年2月19日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
2+阅读 · 今天11:43
网状网络及其在军事领域的运用
专知会员服务
5+阅读 · 今天6:18
无美国参与的欧洲战争方式(万字长文)
专知会员服务
6+阅读 · 今天5:54
《国防领域敏感性分析白皮书》
专知会员服务
7+阅读 · 今天3:42
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
7+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
9+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
9+阅读 · 6月24日
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员