Mental health industry faces growing concerns regarding hate speech directed at children's on social media, as exposure to such content can contribute to adverse psychological outcomes during critical stages of development. Current hate speech datasets and detection systems provide limited support for child-focused applications because they are primarily designed for adults and lack dedicated representations of age-specific characteristics associated with hate speech directed at children's. To address this gap, we introduce ChildGuard, a large-scale English dataset for child-targeted hate speech containing 351,877 annotated instances collected from X (formerly Twitter), Reddit, and YouTube. The dataset covers three age groups such as younger children's (under 11), pre-teens (11-12), and teens (13-17). ChildGuard contains two subsets such as a contextual subset (157K) and a lexical subset (194K). Evaluation using recent transformer-based models and LLMs achieves a best Macro-F1 of 82.07%, decreasing to 79.41%, 79.24%, 76.04%, and 74.88% on younger children's, contextual, implicit hate, and cross-subset settings, respectively.


翻译:心理健康行业日益关注社交媒体上针对儿童的仇恨言论,因为接触此类内容可能在儿童关键发育阶段导致不良心理影响。现有仇恨言论数据集和检测系统主要为成年人设计,缺乏针对儿童特征的年龄特异性表征,因此对面向儿童的应用场景支持有限。为填补这一空白,我们提出了ChildGuard——一个大规模面向儿童仇恨言论的英文数据集,包含从X(原Twitter)、Reddit和YouTube收集的351,877条标注实例。数据集涵盖三个年龄组:低龄儿童(11岁以下)、青春期前儿童(11-12岁)和青少年(13-17岁)。ChildGuard包含两个子集:语境子集(15.7万条)和词汇子集(19.4万条)。基于近期Transformer模型和大语言模型的评估结果显示,最佳宏F1值达到82.07%,而在低龄儿童组、语境子集、隐式仇恨和跨子集设置中分别下降至79.41%、79.24%、76.04%和74.88%。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
45+阅读 · 2024年1月23日
专知会员服务
21+阅读 · 2021年6月27日
SemanticAdv:基于语义属性的对抗样本生成方法
机器之心
14+阅读 · 2019年7月12日
语音情绪识别|声源增强|基频可视化
深度学习每日摘要
15+阅读 · 2019年5月5日
【团队新作】连续情感识别,精准捕捉你的小情绪!
中国科学院自动化研究所
16+阅读 · 2018年4月17日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
45+阅读 · 2024年1月23日
专知会员服务
21+阅读 · 2021年6月27日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员