Dealing with Annotator Disagreement in Hate Speech Classification - 专知论文

会员服务 ·

0

标注 · 仇恨言论检测 · 社交 · 样本 · 社交媒体 ·

Dealing with Annotator Disagreement in Hate Speech Classification

翻译：处理仇恨言论分类中的标注者分歧

Somaiyeh Dehghan,Mehmet Umut Sen,Berrin Yanikoglu

from arxiv, 19 pages, 4 Tables

Hate speech detection is a crucial task, especially on social media where harmful content can spread quickly. Collecting social media content (tweets etc.) to train machine learning models is easy, but detecting and categorizing hate speech can be difficult due to the inherently subjective nature. This subjectivity leads to frequent disagreement among annotators, particularly for subtle or borderline content. Traditional approaches either discard non-consensus samples or force a ''gold standard'' through expert adjudication, ignoring valuable information about uncertainty and diverse human perspectives. We examine the largely overlooked problem of annotator disagreement in hate speech classification and evaluate a range of aggregation methods, including majority voting, ordinal strategies (minimum, maximum, and mean), and analyze their impact across binary, 4-class, and 6-class classification tasks. In addition, we leverage annotators' perceived hate speech strength scores to explore regression-based and hybrid modeling approaches. Among others, we show that filtering non-consensus samples results in over-optimistic results and that the perceived strength provides a complementary signal that enhance classification performance. Finally, we establish new state-of-the-art results for hate speech detection in Turkish tweets, and demonstrate that annotator disagreement, when properly modeled, is a valuable resource for building more robust and reliable systems.

翻译：仇恨言论检测是一项关键任务，尤其在社交媒体上，有害内容可能迅速传播。收集社交媒体内容（如推文等）以训练机器学习模型较为容易，但由于仇恨言论固有的主观性，其检测与分类存在困难。这种主观性导致标注者之间频繁出现分歧，尤其对于微妙或边缘性内容。传统方法要么丢弃非共识样本，要么通过专家裁决强制设定“黄金标准”，从而忽略了关于不确定性和多样化人类视角的宝贵信息。我们研究了仇恨言论分类中长期被忽视的标注者分歧问题，并评估了一系列聚合方法，包括多数投票、序数策略（最小值、最大值和均值），分析了它们在二分类、四分类和六分类任务中的影响。此外，我们利用标注者感知的仇恨言论强度分数，探索了基于回归和混合建模的方法。其中，我们证明过滤非共识样本会导致过于乐观的结果，而感知强度提供了可增强分类性能的互补信号。最终，我们为土耳其语推文的仇恨言论检测建立了新的最先进结果，并证明当适当建模时，标注者分歧是构建更稳健、更可靠系统的宝贵资源。

0

相关内容

《对信息环境分析实现人工智能预测冲突》96页

《对信息环境分析实现人工智能预测冲突》96页

专知会员服务

18+阅读 · 4月7日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

21+阅读 · 2024年3月18日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

专知会员服务

23+阅读 · 2023年12月16日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

28+阅读 · 2022年4月26日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

关于处理样本不平衡问题的Trick整理

关于处理样本不平衡问题的Trick整理

机器学习算法与Python学习

14+阅读 · 2017年12月3日

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

新媒体中考虑群体差异的谣言传播机理及干预策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Evaluating Second-Order Bias of LLMs Through Epistemic Entitlement

Arxiv

0+阅读 · 6月16日

ChildGuard: A Specialized Dataset for Combatting Child-Targeted Hate Speech

Arxiv

0+阅读 · 6月14日

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Arxiv

0+阅读 · 6月13日

Mod-Guide: An LLM-based Content Moderation Feedback System to Address Insensitive Speech toward Indigenous Ethnic and Religious Minority Communities

Arxiv

0+阅读 · 6月11日

Cross-Model Disagreement as a Label-Free Correctness Signal

Arxiv

0+阅读 · 6月11日

Decoding Multimodal Cues: Unveiling the Implicit Meaning Behind Hateful Videos

Arxiv

0+阅读 · 6月10日

FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection

Arxiv

0+阅读 · 5月29日

TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech

Arxiv

0+阅读 · 5月28日

Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations

Arxiv

0+阅读 · 5月26日

Context-Aware Detection and Victim-Centered Response Generation for Online Harassment in Private Messaging

Arxiv

0+阅读 · 5月18日

VIP会员

文章信息

相关主题

仇恨言论检测

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

11+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

《对信息环境分析实现人工智能预测冲突》96页

《对信息环境分析实现人工智能预测冲突》96页

专知会员服务

18+阅读 · 4月7日

大型语言模型中隐性与显性偏见的综合研究

大型语言模型中隐性与显性偏见的综合研究

专知会员服务

17+阅读 · 2025年11月25日

【博士论文】语言模型与人类偏好对齐，148页pdf

【博士论文】语言模型与人类偏好对齐，148页pdf

专知会员服务

32+阅读 · 2024年4月21日

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

《DIVERSE：基于视频评论立场分析解读互联网对美国军事的看法——立场分类的新基准数据集》最新论文

专知会员服务

21+阅读 · 2024年3月18日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

《INDOPACOM 战区内开源社交媒体在互联网领域的叙事分析》81论文

专知会员服务

23+阅读 · 2023年12月16日

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

情报分析《微调多语言模型以剪切自动事件数据》2023最新73页论文

专知会员服务

47+阅读 · 2023年8月27日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

【AI+军事】附论文《在半自动开源网络情报分析中跟踪网络威胁行为者》

专知会员服务

28+阅读 · 2022年4月26日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

异常检测（Anomaly Detection）综述

异常检测（Anomaly Detection）综述

极市平台

20+阅读 · 2020年10月24日

SemanticAdv：基于语义属性的对抗样本生成方法

SemanticAdv：基于语义属性的对抗样本生成方法

机器之心

14+阅读 · 2019年7月12日

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

83页《目标分类和目标检测综述（2D和3D数据）》论文，来自纽约城市大学

GAN生成式对抗网络

26+阅读 · 2019年6月1日

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

【论文推荐】最新八篇情感分析相关论文—Pair-wise判别器、多模态情感分析、上下文语境、Gated 卷积网络

专知

20+阅读 · 2018年6月29日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文笔记】用图卷积网络( GCN)来做语义角色标注

【论文笔记】用图卷积网络( GCN)来做语义角色标注

专知

61+阅读 · 2018年5月26日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

情感分析的新方法，使用word2vec对微博文本进行情感分析和分类

数据挖掘入门与实战

22+阅读 · 2018年1月6日

关于处理样本不平衡问题的Trick整理

关于处理样本不平衡问题的Trick整理

机器学习算法与Python学习

14+阅读 · 2017年12月3日

相关论文

Evaluating Second-Order Bias of LLMs Through Epistemic Entitlement

Arxiv

0+阅读 · 6月16日

ChildGuard: A Specialized Dataset for Combatting Child-Targeted Hate Speech

Arxiv

0+阅读 · 6月14日

Detecting Hate and Inflammatory Content in Bengali Memes: A New Multimodal Dataset and Co-Attention Framework

Arxiv

0+阅读 · 6月13日

Mod-Guide: An LLM-based Content Moderation Feedback System to Address Insensitive Speech toward Indigenous Ethnic and Religious Minority Communities

Arxiv

0+阅读 · 6月11日

Cross-Model Disagreement as a Label-Free Correctness Signal

Arxiv

0+阅读 · 6月11日

Decoding Multimodal Cues: Unveiling the Implicit Meaning Behind Hateful Videos

Arxiv

0+阅读 · 6月10日

FBHM: Functional Benchmarking and Steering of VLMs for Hateful Meme Detection

Arxiv

0+阅读 · 5月29日

TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech

Arxiv

0+阅读 · 5月28日

Attribute-Based Diagnosis of LLM Alignment with Hate Speech Annotations

Arxiv

0+阅读 · 5月26日

Context-Aware Detection and Victim-Centered Response Generation for Online Harassment in Private Messaging

Arxiv

0+阅读 · 5月18日

相关基金

基于多源语义表示学习的社交媒体文本属性情感分类研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于因子分析的会话语音说话人识别研究

国家自然科学基金

1+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于概率语义分析的多关系图多类标分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

新媒体中考虑群体差异的谣言传播机理及干预策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

中文社交化短文本情感分析与话题挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员