Cyberbullying on social media is inherently multilingual and multi-faceted, where abusive behaviors often overlap across multiple categories. Existing methods are commonly limited by monolingual assumptions or single-task formulations, which restrict their effectiveness in realistic multilingual and multi-label scenarios. In this paper, we propose HMS-BERT, a hybrid multi-task self-training framework for multilingual and multi-label cyberbullying detection. Built upon a pretrained multilingual BERT backbone, HMS-BERT integrates contextual representations with handcrafted linguistic features and jointly optimizes a fine-grained multi-label abuse classification task and a three-class main classification task. To address labeled data scarcity in low-resource languages, an iterative self-training strategy with confidence-based pseudo-labeling is introduced to facilitate cross-lingual knowledge transfer. Experiments on four public datasets demonstrate that HMS-BERT achieves strong performance, attaining a macro F1-score of up to 0.9847 on the multi-label task and an accuracy of 0.6775 on the main classification task. Ablation studies further verify the effectiveness of the proposed components.


翻译:社交媒体上的网络欺凌本质上是多语言且多方面的,其辱骂行为通常跨越多个类别并相互重叠。现有方法通常受限于单语言假设或单任务设定,这限制了其在现实多语言与多标签场景中的有效性。本文提出HMS-BERT,一种用于多语言多标签网络欺凌检测的混合多任务自训练框架。该框架以预训练的多语言BERT为骨干网络,将上下文表征与人工构建的语言特征相融合,并联合优化细粒度多标签辱骂分类任务与三分类主任务。针对低资源语言标注数据稀缺的问题,我们引入了基于置信度的伪标注迭代自训练策略,以促进跨语言知识迁移。在四个公开数据集上的实验表明,HMS-BERT取得了优异的性能,在多标签任务上宏F1分数最高可达0.9847,在主分类任务上准确率达0.6775。消融实验进一步验证了所提各模块的有效性。

0
下载
关闭预览

相关内容

BERT全称Bidirectional Encoder Representations from Transformers,是预训练语言表示的方法,可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型,然后将该模型用于下游NLP任务,比如机器翻译、问答。
DGP双粒度提示框架:图增强大模型助力欺诈检测
专知会员服务
9+阅读 · 2025年8月17日
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
44+阅读 · 2024年1月23日
BERT-预训练的强大
微信AI
61+阅读 · 2019年3月7日
Perseus-BERT——业内性能极致优化的BERT训练方案
云栖社区
15+阅读 · 2019年2月20日
从 Word Embedding 到 Bert:一起肢解 Bert!
人工智能头条
17+阅读 · 2018年12月11日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
《作战研究是实现战场人工智能潜力的关键》
专知会员服务
7+阅读 · 今天6:08
《军事训练与行动期间新鲜膳食营养保障》380页
专知会员服务
2+阅读 · 今天5:40
伊朗战争时间线:关键节点与袭击事件
专知会员服务
4+阅读 · 今天5:34
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
11+阅读 · 4月7日
无人机与僵局:俄乌战争难以突破
专知会员服务
4+阅读 · 4月7日
相关VIP内容
DGP双粒度提示框架:图增强大模型助力欺诈检测
专知会员服务
9+阅读 · 2025年8月17日
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
44+阅读 · 2024年1月23日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员