Causality Guided Representation Learning for Cross-Style Hate Speech Detection - 专知论文

会员服务 ·

0

仇恨言论检测 · 表征学习 · 识别 · 泛化 · 潜在 ·

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

翻译：基于因果关系的跨风格仇恨言论检测表征学习

Chengshuai Zhao,Shu Wan,Paras Sheth,Karan Patwa,K. Selçuk Candan,Huan Liu

from arxiv, Accepted by the ACM Web Conference 2026 (WWW 26)

The proliferation of online hate speech poses a significant threat to the harmony of the web. While explicit hate is easily recognized through overt slurs, implicit hate speech is often conveyed through sarcasm, irony, stereotypes, or coded language -- making it harder to detect. Existing hate speech detection models, which predominantly rely on surface-level linguistic cues, fail to generalize effectively across diverse stylistic variations. Moreover, hate speech spread on different platforms often targets distinct groups and adopts unique styles, potentially inducing spurious correlations between them and labels, further challenging current detection approaches. Motivated by these observations, we hypothesize that the generation of hate speech can be modeled as a causal graph involving key factors: contextual environment, creator motivation, target, and style. Guided by this graph, we propose CADET, a causal representation learning framework that disentangles hate speech into interpretable latent factors and then controls confounders, thereby isolating genuine hate intent from superficial linguistic cues. Furthermore, CADET allows counterfactual reasoning by intervening on style within the latent space, naturally guiding the model to robustly identify hate speech in varying forms. CADET demonstrates superior performance in comprehensive experiments, highlighting the potential of causal priors in advancing generalizable hate speech detection.

翻译：在线仇恨言论的激增对网络和谐构成重大威胁。虽然显性仇恨可通过公开的侮辱性语言轻易识别，但隐性仇恨言论往往通过讽刺、反讽、刻板印象或隐晦语言传达——这使得其更难被检测。现有的仇恨言论检测模型主要依赖表层语言线索，无法有效泛化至多样化的风格变体。此外，不同平台传播的仇恨言论通常针对不同群体并采用独特风格，可能诱导其与标签间的虚假关联，进一步挑战现有检测方法。基于这些观察，我们假设仇恨言论的生成可建模为包含关键因素的因果图：语境环境、创作者动机、目标对象和表达风格。在此图引导下，我们提出CADET——一种因果表征学习框架，其将仇恨言论解耦为可解释的潜在因子，进而控制混杂变量，从而将真实的仇恨意图从表层语言线索中分离出来。此外，CADET支持通过对潜在空间中的风格进行干预来实现反事实推理，自然引导模型鲁棒地识别不同形式的仇恨言论。综合实验表明CADET具有优越性能，凸显了因果先验在推进可泛化仇恨言论检测方面的潜力。

0

相关内容

仇恨言论检测

仇恨言论检测

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

专知会员服务

42+阅读 · 2024年3月24日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

专知会员服务

63+阅读 · 2023年11月5日

【博士论文】学习表征以检测新颖性和异常性，72页pdf

【博士论文】学习表征以检测新颖性和异常性，72页pdf

专知会员服务

19+阅读 · 2023年9月30日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

30+阅读 · 2023年2月17日

《定义、测量和分析防御性网络战背景下的可防御性》2022最新106页论文，美国海军研究生院

《定义、测量和分析防御性网络战背景下的可防御性》2022最新106页论文，美国海军研究生院

专知会员服务

34+阅读 · 2022年10月25日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于特征提取与分层建模的社交网络信息传播预测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 3月7日

Take the Power Back: Screen-Based Personal Moderation Against Hate Speech on Instagram

Arxiv

0+阅读 · 3月1日

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Arxiv

0+阅读 · 2月22日

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Arxiv

0+阅读 · 2月19日

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

Arxiv

0+阅读 · 2月12日

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

Arxiv

0+阅读 · 2月11日

Towards Training-free Multimodal Hate Localisation with Large Language Models

Arxiv

0+阅读 · 2月10日

CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection

Arxiv

0+阅读 · 2月8日

From Native Memes to Global Moderation: Cros-Cultural Evaluation of Vision-Language Models for Hateful Meme Detection

Arxiv

0+阅读 · 2月7日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

仇恨言论检测

最新内容

ICML 2026 | SARDI：扩散语言模型的自增强检索

ICML 2026 | SARDI：扩散语言模型的自增强检索

专知会员服务

0+阅读 · 今天14:33

长时程具身智能安全综述：机器人操作的跨层分析

长时程具身智能安全综述：机器人操作的跨层分析

专知会员服务

0+阅读 · 今天14:30

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

专知会员服务

4+阅读 · 今天14:07

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

专知会员服务

2+阅读 · 今天13:59

《国防领域安全采用大语言模型的战略蓝图》

《国防领域安全采用大语言模型的战略蓝图》

专知会员服务

2+阅读 · 今天13:55

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

《对抗性电磁环境下远程巡飞弹作战的保密指挥控制数据链》

专知会员服务

1+阅读 · 今天13:52

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

CVPR2026奖项公布，谷歌D4RT最佳论文获奖，何恺明ResNet、YOLO获时间检验奖！

专知会员服务

1+阅读 · 今天1:50

ICML 2026 | 演化选择的因果建模

ICML 2026 | 演化选择的因果建模

专知会员服务

4+阅读 · 6月5日

综述｜学习式3D表征最新进展与趋势

综述｜学习式3D表征最新进展与趋势

专知会员服务

4+阅读 · 6月5日

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

《武器作战效能分析：基于虚拟构造仿真大数据与深度学习的初步见解》

专知会员服务

6+阅读 · 6月5日

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

《自主巡飞弹药系统量子逻辑框架：一种基于不确定模糊集的方法》

专知会员服务

6+阅读 · 6月5日

人工智能重塑威慑：算法优势的兴起

人工智能重塑威慑：算法优势的兴起

专知会员服务

7+阅读 · 6月5日

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

【博士论文】基于物理结构与贝叶斯不确定性的可靠神经网络

专知会员服务

13+阅读 · 6月4日

AgentOps综述：智能体系统运维框架

AgentOps综述：智能体系统运维框架

专知会员服务

16+阅读 · 6月4日

《美陆军最新条令：兵力防护》

《美陆军最新条令：兵力防护》

专知会员服务

13+阅读 · 6月4日

相关VIP内容

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

【剑桥大学博士论文】可识别的因果表示学习：无监督、多视角、多环境，192页pdf

专知会员服务

42+阅读 · 2024年3月24日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

西安交大最新《深度学习因果模型》综述论文，35页pdf涵盖292篇文献阐述三种数据范式因果模型

专知会员服务

63+阅读 · 2023年11月5日

【博士论文】学习表征以检测新颖性和异常性，72页pdf

【博士论文】学习表征以检测新颖性和异常性，72页pdf

专知会员服务

19+阅读 · 2023年9月30日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

30+阅读 · 2023年2月17日

《定义、测量和分析防御性网络战背景下的可防御性》2022最新106页论文，美国海军研究生院

《定义、测量和分析防御性网络战背景下的可防御性》2022最新106页论文，美国海军研究生院

专知会员服务

34+阅读 · 2022年10月25日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

【ECML-PKDD 2019】终身PU学习在情感分析中的解构面与观点词（Disentangling Aspect and Opinion Words inSentiment Analysis using Lifelong PU Learning）

专知会员服务

16+阅读 · 2019年12月3日

热门VIP内容

开通专知VIP会员享更多权益服务

长时程具身智能安全综述：机器人操作的跨层分析

《锻造军官能力：军官发展的军事训练、学术教育及设计思维导向创新的多维度研究》最新300页

ICML 2026 | SARDI：扩散语言模型的自增强检索

从“杀伤链”到“杀伤网”：新时代防空反导体系的真正需求

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

论文浅尝 | 基于局内去噪和迁移学习的关系抽取

开放知识图谱

16+阅读 · 2018年12月2日

网络表示学习介绍

网络表示学习介绍

人工智能前沿讲习班

18+阅读 · 2018年11月26日

相关性≠因果：概率图模型和do-calculus

相关性≠因果：概率图模型和do-calculus

论智

31+阅读 · 2018年10月29日

【学界】融合对抗学习的因果关系抽取

【学界】融合对抗学习的因果关系抽取

GAN生成式对抗网络

16+阅读 · 2018年7月14日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 3月7日

Take the Power Back: Screen-Based Personal Moderation Against Hate Speech on Instagram

Arxiv

0+阅读 · 3月1日

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Arxiv

0+阅读 · 2月22日

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Arxiv

0+阅读 · 2月19日

Cross-lingual Offensive Language Detection: A Systematic Review of Datasets, Transfer Approaches and Challenges

Arxiv

0+阅读 · 2月12日

Bridging Fairness and Explainability: Can Input-Based Explanations Promote Fairness in Hate Speech Detection?

Arxiv

0+阅读 · 2月11日

Towards Training-free Multimodal Hate Localisation with Large Language Models

Arxiv

0+阅读 · 2月10日

CausalTAD: Injecting Causal Knowledge into Large Language Models for Tabular Anomaly Detection

Arxiv

0+阅读 · 2月8日

From Native Memes to Global Moderation: Cros-Cultural Evaluation of Vision-Language Models for Hateful Meme Detection

Arxiv

0+阅读 · 2月7日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于特征提取与分层建模的社交网络信息传播预测研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员