Online platforms rely on moderation interventions to curb harmful behavior such as hate speech, toxicity, and the spread of mis- and disinformation. Yet research on the effects and possible biases of such interventions faces multiple limitations. For example, existing works frequently focus on single or a few interventions, due to the absence of comprehensive datasets. As a result, researchers must typically collect the necessary data for each new study, which limits opportunities for systematic comparisons. To overcome these challenges, we introduce The Big Ban Theory (TBBT) -- a large dataset of moderation interventions. TBBT covers 25 interventions of varying type, severity, and scope, comprising in total over 339K users and nearly 39M posted messages on Reddit and Voat. For each intervention, we provide standardized metadata and pseudonymized user activity collected three months before and after its enforcement, enabling consistent and comparable analyses of intervention effects. In addition, we provide a descriptive exploratory analysis of the dataset, along with several use cases of how it can support research on content moderation. With this dataset, we aim to support researchers studying the effects of moderation interventions and to promote more systematic, reproducible, and comparable research.


翻译:在线平台依赖审核干预措施来遏制仇恨言论、有害内容以及虚假信息传播等不良行为。然而,关于此类干预措施效果及潜在偏差的研究面临诸多限制。例如,由于缺乏综合性数据集,现有研究通常仅聚焦于单一或少数干预案例。因此,研究人员往往需要为每项新研究单独收集必要数据,这限制了系统性比较的机会。为应对这些挑战,我们提出"大封禁理论"(The Big Ban Theory,简称TBBT)——一个包含审核干预措施的大规模数据集。TBBT涵盖25种不同类型、严重程度和范围的干预措施,涉及Reddit和Voat平台上的超过33.9万用户及近3900万条已发布消息。针对每项干预措施,我们提供标准化元数据,并收集干预实施前后三个月的匿名化用户行为记录,以确保干预效果分析的一致性和可比性。此外,我们对数据集进行了描述性探索分析,并展示了多个如何支持内容审核研究的用例。通过该数据集,我们旨在助力研究人员探究审核干预措施的效果,并推动更系统、可复现且可比较的学术研究。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
45+阅读 · 2024年1月23日
《多维度剖析大规模网络的网络威胁》83页论文
专知会员服务
33+阅读 · 2023年7月29日
ISWC2020最佳论文《可解释假信息检测的链接可信度评价》
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
158万张图像的鉴黄数据集
机器学习算法与Python学习
15+阅读 · 2019年2月14日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员