The rapid spread of fake news on social media has become a major challenge, particularly in multilingual and under-resourced contexts such as North Africa. In this paper, we introduce BOUTEF, a large-scale multilingual corpus designed to study the propagation, characteristics, and impact of fake news in Algeria and Tunisia. The corpus integrates three complementary components: fake narratives, genuine narratives, and associated user-generated comments, along with verified debunking information. It covers a wide range of languages and linguistic varieties, including MSA, Algerian and Tunisian dialects, Arabizi, French, English, and code-switched language. Building on this resource, we conduct a comprehensive empirical analysis combining quantitative and qualitative approaches. We examine thematic distributions, linguistic and rhetorical strategies, sentiment patterns, and social engagement dynamics. Statistical analyses reveal significant associations between thematic categories and message veracity, as well as strong correlations between user engagement and the visibility of fake content. Our findings show that fake news relies heavily on emotionally charged narratives, sensational framing, and hybrid linguistic practices that enhance virality and audience engagement. In contrast, debunking content adopts a more factual and verification-oriented style. Furthermore, a comparative analysis between Algeria and Tunisia highlights both shared dynamics and country-specific characteristics shaped by sociopolitical contexts. The results emphasize the role of informal language practices in the diffusion and reception of misinformation. By providing a rich, annotated, and publicly available dataset, this work contributes to advancing research on fake news detection, low-resource language processing, and the understanding of information disorders in complex linguistic environments.


翻译:摘要:社交媒体上假新闻的快速传播已成为重大挑战,尤其在多语种且资源匮乏的北非地区。本文介绍BOUTEF——一个大规模多语种语料库,旨在研究阿尔及利亚和突尼斯假新闻的传播特征、模式及其影响。该语料库整合三个互补组成部分:虚假叙事、真实叙事及相关用户生成评论,并附有经核实的辟谣信息。其覆盖广泛的语言及语言变体,包括现代标准阿拉伯语、阿尔及利亚及突尼斯方言、阿拉伯字母转写、法语、英语及语码转换语言。基于该资源,我们采用定量与定性相结合的方法开展全面实证分析,考察主题分布、语言与修辞策略、情感模式及社交互动动态。统计分析揭示:主题类别与信息真实性之间存在显著关联,用户参与度与虚假内容可见性之间亦呈强相关。研究发现,假新闻高度依赖情感化叙事、煽情框架及混合语言实践,以增强病毒式传播与受众参与度;相比之下,辟谣内容则更偏向事实核查导向风格。此外,阿尔及利亚与突尼斯的比较分析既凸显出共性传播动态,也揭示了受社会政治情境塑造的国别特征。研究结果强调了非正式语言实践在错误信息扩散与接收中的作用。通过提供经过丰富标注且公开可用的数据集,本工作为推进假新闻检测、低资源语言处理及复杂语言环境中信息失序现象的研究作出贡献。

0
下载
关闭预览

相关内容

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的 [2] 一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等; [3] 狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《多模态假新闻检测框架》2023最新80页论文
专知会员服务
45+阅读 · 2023年10月30日
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
一文看懂虚假新闻检测(附数据集 & 论文推荐)
PaperWeekly
36+阅读 · 2019年2月19日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
《多模态假新闻检测框架》2023最新80页论文
专知会员服务
45+阅读 · 2023年10月30日
相关资讯
面向新闻媒体的命名实体识别技术
PaperWeekly
18+阅读 · 2019年4月17日
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
热点! 虚假新闻检测综述
专知
111+阅读 · 2019年2月26日
一文看懂虚假新闻检测(附数据集 & 论文推荐)
PaperWeekly
36+阅读 · 2019年2月19日
揭秘AI识别虚假新闻背后的原理
DeepTech深科技
10+阅读 · 2018年8月5日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员