The Enforcement and Feasibility of Hate Speech Moderation on Twitter - 专知论文

会员服务 ·

0

可行 · 在线 · 标注 · 系统 · 一致 ·

The Enforcement and Feasibility of Hate Speech Moderation on Twitter

翻译：仇恨言论审核的执行力与可行性：基于推特平台的研究

Manuel Tonneau,Dylan Thurgood,Diyi Liu,Niyati Malhotra,Victor Orozco-Olvera,Ralph Schroeder,Scott A. Hale,Manoel Horta Ribeiro,Paul Röttger,Samuel P. Fraiberger

Online hate speech is associated with substantial social harms, yet it remains unclear how consistently platforms enforce hate speech policies or whether enforcement is feasible at scale. We address these questions through a global audit of hate speech moderation on Twitter (now X). Using a complete 24-hour snapshot of public tweets, we construct representative samples comprising 540,000 tweets annotated for hate speech by trained annotators across eight major languages. Five months after posting, 80% of hateful tweets remain online, including explicitly violent hate speech. Such tweets are no more likely to be removed than non-hateful tweets, with neither severity nor visibility increasing the likelihood of removal. We then examine whether these enforcement gaps reflect technical limits of large-scale moderation systems. While fully automated detection systems cannot reliably identify hate speech without generating large numbers of false positives, they effectively prioritize likely violations for human review. Simulations of a human-AI moderation pipeline indicate that substantially reducing user exposure to hate speech is economically feasible at a cost below existing regulatory penalties. These results suggest that the persistence of online hate cannot be explained by technical constraints alone but also reflects institutional choices in the allocation of moderation resources.

翻译：在线仇恨言论与重大社会危害相关，但平台执行仇恨言论政策的一致性及其大规模可行性仍不明确。我们通过对推特（现X平台）的全球审计来回答这些问题。利用24小时内的公开推文完整快照，我们构建了包含54万条推文的代表性样本，这些推文由经过培训的标注员使用八种主要语言进行仇恨言论标注。在发布五个月后，80%的仇恨推文仍在线保留，包括明确涉及暴力的仇恨言论。此类推文被删除的概率并不高于非仇恨推文，严重程度和可见性均未提高删除率。我们进一步考察了这些执行差距是否反映大规模审核系统的技术局限性。虽然完全自动化的检测系统无法在不产生大量误报的情况下可靠识别仇恨言论，但它们能有效将疑似违规内容优先提交人工审核。人机协同审核流程的模拟表明，大幅降低用户对仇恨言论的接触在现有监管处罚成本范围内具有经济可行性。这些结果表明，在线仇恨言论的持续存在不能仅用技术限制解释，更反映了审核资源配置中的制度性选择。

0

相关内容

《俄乌战争中影响力行动的社交媒体分析》2025最新69页

《俄乌战争中影响力行动的社交媒体分析》2025最新69页

专知会员服务

23+阅读 · 2025年10月4日

《在线影响力行动的社交网络策略分析》203页

《在线影响力行动的社交网络策略分析》203页

专知会员服务

27+阅读 · 2024年7月1日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

《分析Twitter网络，提高开源情报能力：多层网络方法》90页论文

《分析Twitter网络，提高开源情报能力：多层网络方法》90页论文

专知会员服务

46+阅读 · 2023年11月7日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

专知会员服务

19+阅读 · 2022年2月27日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

专知会员服务

36+阅读 · 2020年10月24日

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

深度学习在推荐系统中的应用及论文小结

深度学习在推荐系统中的应用及论文小结

专知

14+阅读 · 2019年7月8日

网络舆情分析

网络舆情分析

计算机与网络安全

20+阅读 · 2018年10月18日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

Twitter情感分析及其可视化

Twitter情感分析及其可视化

数据挖掘入门与实战

22+阅读 · 2018年3月20日

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于核与核度理论的在线社交网络拓扑结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

新媒体中考虑群体差异的谣言传播机理及干预策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂社交网络环境下基于社区演化和传递效应的推荐策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

MemeScouts@LT-EDI 2026: Asking the Right Questions -- Prompted Weak Supervision for Meme Hate Speech Detection

Arxiv

0+阅读 · 4月28日

The Power of Social Norms: How Initial Responses to Toxicity Shape Conversations on Twitter

Arxiv

0+阅读 · 4月17日

Assessing How Hate, Counterspeech, and Toxicity Affect Hate Group Newcomers

Arxiv

0+阅读 · 4月10日

Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study

Arxiv

0+阅读 · 4月9日

Cyberbullying Detection: Exploring Datasets, Technologies, and Approaches on Social Media Platforms

Arxiv

0+阅读 · 4月6日

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 4月5日

When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech

Arxiv

0+阅读 · 3月26日

Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation

Arxiv

0+阅读 · 3月24日

Echoes of Norms: Investigating Counterspeech Bots' Influence on Bystanders in Online Communities

Arxiv

0+阅读 · 3月4日

Take the Power Back: Screen-Based Personal Moderation Against Hate Speech on Instagram

Arxiv

0+阅读 · 3月1日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《俄乌战争中影响力行动的社交媒体分析》2025最新69页

《俄乌战争中影响力行动的社交媒体分析》2025最新69页

专知会员服务

23+阅读 · 2025年10月4日

《在线影响力行动的社交网络策略分析》203页

《在线影响力行动的社交网络策略分析》203页

专知会员服务

27+阅读 · 2024年7月1日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

《利用大型语言模型检测社交平台上的网络欺凌行为》

《利用大型语言模型检测社交平台上的网络欺凌行为》

专知会员服务

45+阅读 · 2024年1月23日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

26+阅读 · 2024年1月2日

《分析Twitter网络，提高开源情报能力：多层网络方法》90页论文

《分析Twitter网络，提高开源情报能力：多层网络方法》90页论文

专知会员服务

46+阅读 · 2023年11月7日

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

《从社交媒体上协调的敌对信息活动中预测集体暴力》2022.12最新103页论文

专知会员服务

31+阅读 · 2023年2月17日

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

AAAI2022最新「仇恨言论:发现、缓解和超越」报告，129页PPT阐述仇恨言论检测进展

专知会员服务

19+阅读 · 2022年2月27日

【ICWSM2021】仇恨言论：检测与管制等，142页ppt

专知会员服务

21+阅读 · 2021年6月27日

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

【CIKM2020-教程】仇恨言论假新闻检测，157页ppt

专知会员服务

36+阅读 · 2020年10月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

《用于网络防御的深度机器学习》【概念解读、事件简史、深度学习、面临挑战、军事应用】20余位作者2022最新126页技术报告

专知

11+阅读 · 2022年10月28日

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

【经典书】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页

专知

17+阅读 · 2022年4月16日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

深度学习在推荐系统中的应用及论文小结

深度学习在推荐系统中的应用及论文小结

专知

14+阅读 · 2019年7月8日

网络舆情分析

网络舆情分析

计算机与网络安全

20+阅读 · 2018年10月18日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

【论文推荐】最新八篇情感分析相关论文—注意力网络、多模态情感分析、情感分析局限性、跨语言情感分类、多语言情感分析

专知

52+阅读 · 2018年6月28日

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

【论文推荐】最新八篇推荐系统相关论文—可解释推荐、上下文感知推荐系统、异构知识库嵌入、深度强化学习、移动推荐系统

专知

17+阅读 · 2018年6月16日

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

Kaggle 恶意评论(toxic comment classification)分类 top 1 %方案

AI研习社

11+阅读 · 2018年4月1日

Twitter情感分析及其可视化

Twitter情感分析及其可视化

数据挖掘入门与实战

22+阅读 · 2018年3月20日

相关论文

MemeScouts@LT-EDI 2026: Asking the Right Questions -- Prompted Weak Supervision for Meme Hate Speech Detection

Arxiv

0+阅读 · 4月28日

The Power of Social Norms: How Initial Responses to Toxicity Shape Conversations on Twitter

Arxiv

0+阅读 · 4月17日

Assessing How Hate, Counterspeech, and Toxicity Affect Hate Group Newcomers

Arxiv

0+阅读 · 4月10日

Evaluating LLMs for Demographic-Targeted Social Bias Detection: A Comprehensive Benchmark Study

Arxiv

0+阅读 · 4月9日

Cyberbullying Detection: Exploring Datasets, Technologies, and Approaches on Social Media Platforms

Arxiv

0+阅读 · 4月6日

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Arxiv

0+阅读 · 4月5日

When Hate Meets Facts: LLMs-in-the-Loop for Check-worthiness Detection in Hate Speech

Arxiv

0+阅读 · 3月26日

Beyond Hate: Differentiating Uncivil and Intolerant Speech in Multimodal Content Moderation

Arxiv

0+阅读 · 3月24日

Echoes of Norms: Investigating Counterspeech Bots' Influence on Bystanders in Online Communities

Arxiv

0+阅读 · 3月4日

Take the Power Back: Screen-Based Personal Moderation Against Hate Speech on Instagram

Arxiv

0+阅读 · 3月1日

相关基金

基于信号理论和众包的社交媒体平台安全性和可信度群体评估方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于核与核度理论的在线社交网络拓扑结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

社交网络中的流言传播与演化

国家自然科学基金

2+阅读 · 2015年12月31日

新媒体中考虑群体差异的谣言传播机理及干预策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂社交网络环境下基于社区演化和传递效应的推荐策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

负面在线评论和商家反馈对消费者个体态度和群体观点演化的影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员