Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation - 专知论文

会员服务 ·

0

粒度 · 细粒度 · 多模 · 模态 · 标注 ·

Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation

翻译：超越仇恨：多模态内容审核中区分不文明与不容忍言论

Nils A. Herrmann,Tobias Eder,Jingyi He,Georg Groh

from arxiv, Preprint. Under review

Current multimodal toxicity benchmarks typically use a single binary hatefulness label. This coarse approach conflates two fundamentally different characteristics of expression: tone and content. Drawing on communication science theory, we introduce a fine-grained annotation scheme that distinguishes two separable dimensions: incivility (rude or dismissive tone) and intolerance (content that attacks pluralism and targets groups or identities) and apply it to 2,030 memes from the Hateful Memes dataset. We evaluate different vision-language models under coarse-label training, transfer learning across label schemes and a joint learning approach that combines the coarse hatefulness label with our fine-grained annotations. Our results show that fine-grained annotations complement existing coarse labels and, when used jointly, improve overall model performance. Moreover, models trained with the fine-grained scheme exhibit more balanced moderation-relevant error profiles and are less prone to under-detection of harmful content than models trained on hatefulness labels alone (FNR-FPR, the difference between false negative and false positive rates: 0.74 to 0.42 for LLaVA-1.6-Mistral-7B; 0.54 to 0.28 for Qwen2.5-VL-7B). This work contributes to data-centric approaches in content moderation by improving the reliability and accuracy of moderation systems through enhanced data quality. Overall, combining both coarse and fine-grained labels provides a practical route to more reliable multimodal moderation.

翻译：当前的多模态毒性基准通常采用单一的二元仇恨标签。这种粗略方法混淆了表达的两个根本不同特征：语气与内容。借鉴传播科学理论，我们引入了一种细粒度的标注方案，区分了两个可分离的维度：不文明（粗鲁或轻蔑的语气）和不容忍（攻击多元性、针对群体或身份的内容），并将其应用于来自 Hateful Memes 数据集的 2030 个模因。我们在粗标签训练、跨标签方案迁移学习以及结合粗粒度仇恨标签与我们的细粒度标注的联合学习方法下，评估了不同的视觉语言模型。结果表明，细粒度标注补充了现有的粗标签，并在联合使用时提升了整体模型性能。此外，与仅使用仇恨标签训练的模型相比，采用细粒度方案训练的模型展现出更均衡的审查相关错误概况，且不易漏检有害内容（FNR-FPR，即假阴性与假阳性率之差：LLaVA-1.6-Mistral-7B 从 0.74 降至 0.42；Qwen2.5-VL-7B 从 0.54 降至 0.28）。这项工作通过提升数据质量，改进了审核系统的可靠性与准确性，从而为内容审核中数据驱动的方法做出了贡献。总体而言，结合粗标签与细粒度标签，为实现更可靠的多模态审核提供了一条实用路径。

0

相关内容

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

11+阅读 · 5月22日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

《多行为体威慑概念的界定》中文版

《多行为体威慑概念的界定》中文版

专知会员服务

53+阅读 · 2023年8月21日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

专知会员服务

28+阅读 · 2022年10月30日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

51+阅读 · 2019年10月22日

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

跨越注意力：Cross-Attention

跨越注意力：Cross-Attention

我爱读PAMI

172+阅读 · 2018年6月2日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Confident, Calibrated, or Complicit: Safety Alignment and Ideological Bias in LLM Hate Speech Detection

Arxiv

0+阅读 · 5月4日

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding

Arxiv

0+阅读 · 4月28日

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Arxiv

0+阅读 · 4月26日

TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models

Arxiv

0+阅读 · 4月17日

The Enforcement and Feasibility of Hate Speech Moderation on Twitter

Arxiv

0+阅读 · 4月14日

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 4月5日

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Arxiv

0+阅读 · 3月26日

When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech

Arxiv

0+阅读 · 3月26日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

【综述】大语言模型驱动的多模态情感识别综述：挑战、分类与未来方向

专知会员服务

11+阅读 · 5月22日

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

【NeurIPS2023】MultiModN:多模态，多任务，可解释的模块化网络

专知会员服务

40+阅读 · 2023年9月27日

《多行为体威慑概念的界定》中文版

《多行为体威慑概念的界定》中文版

专知会员服务

53+阅读 · 2023年8月21日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

专知会员服务

28+阅读 · 2022年10月30日

复旦大学邱锡鹏等《自然语言处理范式迁移综述》论文，详述7大NLP范式：分类、匹配、SeqLab, MRC, Seq2Seq等

专知会员服务

54+阅读 · 2021年9月29日

多模态摘要简述

专知会员服务

149+阅读 · 2020年9月6日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

【AAAI2020】多模态注意力语义图嵌入多标签分类（Cross-Modality Attention with Semantic Graph Embedding for Multi-Label Classification）

专知会员服务

92+阅读 · 2019年12月22日

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

面向社会媒体的多模态情感分析与表达，搜狗AI交互技术中心高级总监陈伟，第八届全国社会媒体处理大会SMP2019

专知会员服务

51+阅读 · 2019年10月22日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

【CVPR2021】跨模态检索的概率嵌入

【CVPR2021】跨模态检索的概率嵌入

专知

17+阅读 · 2021年3月2日

多模态视觉语言表征学习研究综述

多模态视觉语言表征学习研究综述

专知

27+阅读 · 2020年12月3日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

【阿里巴巴-WWW2020】对抗性多模态表示学习的点击率预测，Adversarial Multimodal RL

专知

11+阅读 · 2020年3月17日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

跨越注意力：Cross-Attention

跨越注意力：Cross-Attention

我爱读PAMI

172+阅读 · 2018年6月2日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

相关论文

Confident, Calibrated, or Complicit: Safety Alignment and Ideological Bias in LLM Hate Speech Detection

Arxiv

0+阅读 · 5月4日

Beyond Isolated Utterances: Cue-Guided Interaction for Context-Dependent Conversational Multimodal Understanding

Arxiv

0+阅读 · 4月28日

CrossGuard: Safeguarding MLLMs against Joint-Modal Implicit Malicious Attacks

Arxiv

0+阅读 · 4月26日

TwoHamsters: Benchmarking Multi-Concept Compositional Unsafety in Text-to-Image Models

Arxiv

0+阅读 · 4月17日

The Enforcement and Feasibility of Hate Speech Moderation on Twitter

Arxiv

0+阅读 · 4月14日

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 4月5日

Beyond Via: Analysis and Estimation of the Impact of Large Language Models in Academic Papers

Arxiv

0+阅读 · 3月26日

When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech

Arxiv

0+阅读 · 3月26日

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Arxiv

0+阅读 · 3月1日

Retrieval Augmented Enhanced Dual Co-Attention Framework for Target Aware Multimodal Bengali Hateful Meme Detection

Arxiv

0+阅读 · 2月22日

相关基金

基于时空模式的复杂行为识别方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚合的社会化短文本信息处理与细粒度倾向性分析

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

读者视角的跨领域隐式情感分析理论及关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员