Misinformation is considered a threat to our democratic values and principles. The spread of such content on social media polarizes society and undermines public discourse by distorting public perceptions and generating social unrest while lacking the rigor of traditional journalism. Transformers and transfer learning proved to be state-of-the-art methods for multiple well-known natural language processing tasks. In this paper, we propose MisRoB{\AE}RTa, a novel transformer-based deep neural ensemble architecture for misinformation detection. MisRoB{\AE}RTa takes advantage of two transformers (BART \& RoBERTa) to improve the classification performance. We also benchmarked and evaluated the performances of multiple transformers on the task of misinformation detection. For training and testing, we used a large real-world news articles dataset labeled with 10 classes, addressing two shortcomings in the current research: increasing the size of the dataset from small to large, and moving the focus of fake news detection from binary classification to multi-class classification. For this dataset, we manually verified the content of the news articles to ensure that they were correctly labeled. The experimental results show that the accuracy of transformers on the misinformation detection problem was significantly influenced by the method employed to learn the context, dataset size, and vocabulary dimension. We observe empirically that the best accuracy performance among the classification models that use only one transformer is obtained by BART, while DistilRoBERTa obtains the best accuracy in the least amount of time required for fine-tuning and training. The proposed MisRoB{\AE}RTa outperforms the other transformer models in the task of misinformation detection. To arrive at this conclusion, we performed ample ablation and sensitivity testing with MisRoB{\AE}RTa on two datasets.


翻译:虚假信息被视为对我们民主价值观和原则的威胁。这类内容在社交媒体上的传播通过歪曲公众认知、引发社会动荡,同时缺乏传统新闻的严谨性,从而加剧社会分化并破坏公共讨论。变换器(Transformer)和迁移学习已被证明是多种著名自然语言处理任务的最先进方法。本文提出了一种基于变换器的新型深度神经集成架构——MisRoBÆRTa,用于虚假信息检测。MisRoBÆRTa利用BART和RoBERTa两种变换器来提升分类性能。我们还对多种变换器在虚假信息检测任务上的表现进行了基准测试与评估。在训练和测试中,我们使用了一个包含10个类别的大规模真实新闻文章数据集,以解决当前研究中的两个不足:将数据集规模从较小扩展至较大,以及将假新闻检测的关注点从二分类转向多分类。对于该数据集,我们手动验证了新闻文章的内容以确保其标签正确。实验结果表明,变换器在虚假信息检测问题上的准确性显著受其上下文学习方法、数据集规模以及词汇维度的影响。我们通过实证观察发现,仅使用单一变换器的分类模型中,BART获得了最佳的准确率表现,而DistilRoBERTa在微调和训练所需时间最短的情况下取得了最佳准确率。所提出的MisRoBÆRTa在虚假信息检测任务中优于其他变换器模型。为得出这一结论,我们在两个数据集上对MisRoBÆRTa进行了充分的消融实验和敏感性测试。

0
下载
关闭预览

相关内容

【ACL2020-Facebook AI】大规模无监督跨语言表示学习
专知会员服务
34+阅读 · 2020年4月5日
【WWW2020-UIUC】为新闻故事生成具有代表性的标题
专知会员服务
27+阅读 · 2020年3月18日
【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
58+阅读 · 2020年3月6日
多项NLP任务新SOTA,Facebook提出预训练模型BART
机器之心
22+阅读 · 2019年11月4日
论文浅尝 | XQA:一个跨语言开放域问答数据集
开放知识图谱
26+阅读 · 2019年9月11日
如何解决计算机视觉中的深度域适应问题?
AI前线
28+阅读 · 2019年7月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
0+阅读 · 2023年6月1日
已删除
Arxiv
33+阅读 · 2020年3月23日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员