SoftHateBench: Evaluating Moderation Models Against Reasoning-Driven, Policy-Compliant Hostility - 专知论文

会员服务 ·

0

系统 · 基准 · 基准测试 · 包含 · 社交 ·

SoftHateBench: Evaluating Moderation Models Against Reasoning-Driven, Policy-Compliant Hostility

翻译：SoftHateBench：评估内容审核模型对推理驱动、符合政策规定的敌对言论的应对能力

Xuanyu Su,Diana Inkpen,Nathalie Japkowicz

Online hate on social media ranges from overt slurs and threats (\emph{hard hate speech}) to \emph{soft hate speech}: discourse that appears reasonable on the surface but uses framing and value-based arguments to steer audiences toward blaming or excluding a target group. We hypothesize that current moderation systems, largely optimized for surface toxicity cues, are not robust to this reasoning-driven hostility, yet existing benchmarks do not measure this gap systematically. We introduce \textbf{\textsc{SoftHateBench}}, a generative benchmark that produces soft-hate variants while preserving the underlying hostile standpoint. To generate soft hate, we integrate the \emph{Argumentum Model of Topics} (AMT) and \emph{Relevance Theory} (RT) in a unified framework: AMT provides the backbone argument structure for rewriting an explicit hateful standpoint into a seemingly neutral discussion while preserving the stance, and RT guides generation to keep the AMT chain logically coherent. The benchmark spans \textbf{7} sociocultural domains and \textbf{28} target groups, comprising \textbf{4,745} soft-hate instances. Evaluations across encoder-based detectors, general-purpose LLMs, and safety models show a consistent drop from hard to soft tiers: systems that detect explicit hostility often fail when the same stance is conveyed through subtle, reasoning-based language. \textcolor{red}{\textbf{Disclaimer.} Contains offensive examples used solely for research.}

翻译：社交媒体上的在线仇恨言论，从公开的诽谤和威胁（硬仇恨言论）到软仇恨言论，形式多样：后者表面看似合理，实则利用框架和基于价值的论点引导受众指责或排斥目标群体。我们假设，当前主要针对表面毒性线索优化的内容审核系统，对这种推理驱动的敌对言论并不鲁棒，然而现有基准测试未能系统性地衡量这一差距。我们引入了 **SoftHateBench**，一个生成式基准测试，能够生成软仇恨变体，同时保留其潜在的敌对立场。为了生成软仇恨言论，我们将 **议题论证模型**（AMT）和 **关联理论**（RT）整合到一个统一框架中：AMT 为将明确的仇恨立场重写为看似中立的讨论（同时保留立场）提供了主干论证结构，而 RT 则指导生成过程以保持 AMT 论证链的逻辑连贯性。该基准测试涵盖 **7** 个社会文化领域和 **28** 个目标群体，包含 **4,745** 个软仇恨实例。对基于编码器的检测器、通用大语言模型和安全模型的评估显示，从硬仇恨层级到软仇恨层级，检测性能普遍下降：那些能检测明确敌对言论的系统，在面对通过微妙、基于推理的语言传达的相同立场时常常失效。**免责声明：** 包含仅用于研究的冒犯性示例。

0

相关内容

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

《多模态假新闻检测框架》2023最新80页论文

《多模态假新闻检测框架》2023最新80页论文

专知会员服务

44+阅读 · 2023年10月30日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

32+阅读 · 2023年5月14日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

27+阅读 · 2022年4月26日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【哈工大SCIR】多模态情感分析简述

【哈工大SCIR】多模态情感分析简述

深度学习自然语言处理

33+阅读 · 2019年12月14日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

新媒体中考虑群体差异的谣言传播机理及干预策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Arxiv

0+阅读 · 2月19日

Not-in-Perspective: Towards Shielding Google's Perspective API Against Adversarial Negation Attacks

Arxiv

0+阅读 · 2月10日

Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments

Arxiv

0+阅读 · 2月5日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments

Arxiv

0+阅读 · 2月4日

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

Arxiv

0+阅读 · 2月3日

The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions

Arxiv

0+阅读 · 1月27日

HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations

Arxiv

0+阅读 · 1月20日

Bi-Attention HateXplain : Taking into account the sequential aspect of data during explainability in a multi-task context

Arxiv

0+阅读 · 1月19日

The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

3+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

2+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

2+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

44+阅读 · 2024年1月23日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

《多模态假新闻检测框架》2023最新80页论文

《多模态假新闻检测框架》2023最新80页论文

专知会员服务

44+阅读 · 2023年10月30日

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

《基于对手网络基础设施发掘来实现自动威胁建模》2023最新79页论文

专知会员服务

32+阅读 · 2023年5月14日

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

【AI+军事】附论文《从普通文本到网络威胁情报--利用自然语言处理收集网络威胁情报的技术解决方案》

专知会员服务

64+阅读 · 2022年4月26日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

27+阅读 · 2022年4月26日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

50+阅读 · 2022年11月16日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【哈工大SCIR】多模态情感分析简述

【哈工大SCIR】多模态情感分析简述

深度学习自然语言处理

33+阅读 · 2019年12月14日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

干货|85页最新《人机对话系统》神经方法综述论文，微软与谷歌研究员联合出品：

专知

35+阅读 · 2018年10月7日

揭秘AI识别虚假新闻背后的原理

揭秘AI识别虚假新闻背后的原理

DeepTech深科技

10+阅读 · 2018年8月5日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

【360人工智能研究院与NUS颜水成团队】HashGAN:基于注意力机制的深度对抗哈希模型提升跨模态检索效果

专知

16+阅读 · 2017年11月29日

相关论文

PEACE 2.0: Grounded Explanations and Counter-Speech for Combating Hate Expressions

Arxiv

0+阅读 · 2月19日

Not-in-Perspective: Towards Shielding Google's Perspective API Against Adversarial Negation Attacks

Arxiv

0+阅读 · 2月10日

Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments

Arxiv

0+阅读 · 2月5日

xList-Hate: A Checklist-Based Framework for Interpretable and Generalizable Hate Speech Detection

Arxiv

0+阅读 · 2月5日

Group-Adaptive Adversarial Learning for Robust Fake News Detection Against Malicious Comments

Arxiv

0+阅读 · 2月4日

Causality Guided Representation Learning for Cross-Style Hate Speech Detection

Arxiv

0+阅读 · 2月3日

The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions

Arxiv

0+阅读 · 1月27日

HateXScore: A Metric Suite for Evaluating Reasoning Quality in Hate Speech Explanations

Arxiv

0+阅读 · 1月20日

Bi-Attention HateXplain : Taking into account the sequential aspect of data during explainability in a multi-task context

Arxiv

0+阅读 · 1月19日

The Big Ban Theory: A Pre- and Post-Intervention Dataset of Online Content Moderation Actions

Arxiv

0+阅读 · 1月16日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

新媒体中考虑群体差异的谣言传播机理及干预策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员