ChildGuard: A Specialized Dataset for Combatting Child-Targeted Hate Speech

Mental health industry faces growing concerns regarding hate speech directed at children's on social media, as exposure to such content can contribute to adverse psychological outcomes during critical stages of development. Current hate speech datasets and detection systems provide limited support for child-focused applications because they are primarily designed for adults and lack dedicated representations of age-specific characteristics associated with hate speech directed at children's. To address this gap, we introduce ChildGuard, a large-scale English dataset for child-targeted hate speech containing 351,877 annotated instances collected from X (formerly Twitter), Reddit, and YouTube. The dataset covers three age groups such as younger children's (under 11), pre-teens (11-12), and teens (13-17). ChildGuard contains two subsets such as a contextual subset (157K) and a lexical subset (194K). Evaluation using recent transformer-based models and LLMs achieves a best Macro-F1 of 82.07%, decreasing to 79.41%, 79.24%, 76.04%, and 74.88% on younger children's, contextual, implicit hate, and cross-subset settings, respectively.

翻译：心理健康行业日益关注社交媒体上针对儿童的仇恨言论，因为接触此类内容可能在儿童关键发育阶段导致不良心理影响。现有仇恨言论数据集和检测系统主要为成年人设计，缺乏针对儿童特征的年龄特异性表征，因此对面向儿童的应用场景支持有限。为填补这一空白，我们提出了ChildGuard——一个大规模面向儿童仇恨言论的英文数据集，包含从X（原Twitter）、Reddit和YouTube收集的351,877条标注实例。数据集涵盖三个年龄组：低龄儿童（11岁以下）、青春期前儿童（11-12岁）和青少年（13-17岁）。ChildGuard包含两个子集：语境子集（15.7万条）和词汇子集（19.4万条）。基于近期Transformer模型和大语言模型的评估结果显示，最佳宏F1值达到82.07%，而在低龄儿童组、语境子集、隐式仇恨和跨子集设置中分别下降至79.41%、79.24%、76.04%和74.88%。

相关内容

数据集

关注 88

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。
Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

中文版 | 数字战场：人工智能如何作为主动防护盾对抗网络欺凌

专知会员服务

10+阅读 · 2025年5月22日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

21+阅读 · 2024年3月18日

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日