Hateful speech detection is a key component of content moderation, yet current evaluation frameworks rarely assess why a text is deemed hateful. We introduce \textsf{HateXScore}, a four-component metric suite designed to evaluate the reasoning quality of model explanations. It assesses (i) conclusion explicitness, (ii) faithfulness and causal grounding of quoted spans, (iii) protected group identification (policy-configurable), and (iv) logical consistency among these elements. Evaluated on six diverse hate speech datasets, \textsf{HateXScore} is intended as a diagnostic complement to reveal interpretability failures and annotation inconsistencies that are invisible to standard metrics like Accuracy or F1. Moreover, human evaluation shows strong agreement with \textsf{HateXScore}, validating it as a practical tool for trustworthy and transparent moderation. \textcolor{red}{Disclaimer: This paper contains sensitive content that may be disturbing to some readers.}


翻译:仇恨言论检测是内容审核的关键组成部分,然而当前的评估框架很少评估文本为何被判定为仇恨言论。我们引入了 \textsf{HateXScore},一个包含四个组件的度量套件,旨在评估模型解释的推理质量。它评估(i)结论的明确性,(ii)引用文本片段的忠实性与因果依据,(iii)受保护群体的识别(可配置策略),以及(iv)这些元素之间的逻辑一致性。在六个不同的仇恨言论数据集上进行评估后,\textsf{HateXScore} 旨在作为一种诊断性补充工具,以揭示诸如准确率或F1分数等标准度量所无法察觉的可解释性失败和标注不一致问题。此外,人工评估显示与 \textsf{HateXScore} 具有高度一致性,验证了其作为实现可信与透明审核的实用工具的价值。\textcolor{red}{免责声明:本文包含可能令部分读者感到不适的敏感内容。}

0
下载
关闭预览

相关内容

《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
44+阅读 · 2024年1月23日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
33+阅读 · 2012年12月31日
VIP会员
相关VIP内容
《利用大型语言模型检测社交平台上的网络欺凌行为》
专知会员服务
44+阅读 · 2024年1月23日
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
33+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员