Now that AI-driven moderation has become pervasive in everyday life, we often hear claims that "the AI is biased". While this is often said jokingly, the light-hearted remark reflects a deeper concern. How can we be certain that an online post flagged as "inappropriate" was not simply the victim of a biased algorithm? This paper investigates this problem using a dual approach. First, I conduct a quantitative benchmark of a widely used toxicity model (unitary/toxic-bert) to measure performance disparity between text in African-American English (AAE) and Standard American English (SAE). The benchmark reveals a clear, systematic bias: on average, the model scores AAE text as 1.8 times more toxic and 8.8 times higher for "identity hate". Second, I introduce an interactive pedagogical tool that makes these abstract biases tangible. The tool's core mechanic, a user-controlled "sensitivity threshold," demonstrates that the biased score itself is not the only harm; instead, the more-concerning harm is the human-set, seemingly neutral policy that ultimately operationalises discrimination. This work provides both statistical evidence of disparate impact and a public-facing tool designed to foster critical AI literacy.


翻译:摘要:如今,AI驱动的审核已渗透日常生活,我们常听到“这个AI有偏见”的说法。尽管这常被戏谑表述,但轻率评论背后反映着深层忧虑:被标记为“不当”的网络帖子,如何能确定它只是有偏算法的牺牲品?本文采用双重方法研究该问题。首先,我对广泛使用的毒性模型(unitary/toxic-bert)进行定量基准测试,测量其在非洲裔美国人英语(AAE)与标准美国英语(SAE)文本间的性能差异。基准测试揭示了清晰、系统性的偏见:平均而言,该模型对AAE文本的毒性评分是SAE文本的1.8倍,“身份仇恨”评分高达8.8倍。其次,我引入一个交互式教学工具,使这些抽象偏见变得可感知。该工具的核心机制——用户可控的“敏感度阈值”——表明有偏评分本身并非唯一危害;真正更令人担忧的,是最终将歧视操作化的人类设定的、看似中立的政策。本研究既提供了差异性影响的统计证据,又打造了面向公众的批判性AI素养培养工具。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
AI生成代码缺陷综述
专知会员服务
17+阅读 · 2025年12月8日
人工智能军事决策支持系统中的算法偏见问题
专知会员服务
33+阅读 · 2024年9月11日
人工智能模型中公平性追求的综述
专知会员服务
22+阅读 · 2024年3月30日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
VIP会员
最新内容
世界动作模型: 具身AI的下一个前沿
专知会员服务
0+阅读 · 今天12:28
全球十大防空反导系统:列表、射程与用途
专知会员服务
10+阅读 · 今天3:53
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员