Now that AI-driven moderation has become pervasive in everyday life, we often hear claims that "the AI is biased". While this is often said jokingly, the light-hearted remark reflects a deeper concern. How can we be certain that an online post flagged as "inappropriate" was not simply the victim of a biased algorithm? This paper investigates this problem using a dual approach. First, I conduct a quantitative benchmark of a widely used toxicity model (unitary/toxic-bert) to measure performance disparity between text in African-American English (AAE) and Standard American English (SAE). The benchmark reveals a clear, systematic bias: on average, the model scores AAE text as 1.8 times more toxic and 8.8 times higher for "identity hate". Second, I introduce an interactive pedagogical tool that makes these abstract biases tangible. The tool's core mechanic, a user-controlled "sensitivity threshold," demonstrates that the biased score itself is not the only harm; instead, the more-concerning harm is the human-set, seemingly neutral policy that ultimately operationalises discrimination. This work provides both statistical evidence of disparate impact and a public-facing tool designed to foster critical AI literacy.


翻译:摘要:随着人工智能驱动的内容审核已渗透日常生活,我们常听到“这AI有偏见”的评价。尽管这常以戏谑口吻说出,这种轻松评论实则反映了深层忧虑:如何确定被标记为“不妥”的网络帖子,并非仅仅是算法偏见的牺牲品?本文采用双重方法研究此问题。首先,我对广泛应用的毒性模型(unitary/toxic-bert)进行定量基准测试,衡量其在非裔美国人英语(AAE)与标准美式英语(SAE)文本间的性能差异。基准测试揭示了清晰且系统性的偏见:平均而言,模型将AAE文本的毒性得分判定为SAE文本的1.8倍,而“身份仇恨”得分则高达8.8倍。其次,我引入一个互动教学工具,使这些抽象偏见变得可感知。该工具的核心机制——用户可控的“敏感度阈值”——表明,有偏见的分数本身并非唯一危害;更具警示性的危害在于人为设定且看似中立的政策,这些政策最终将歧视制度化了。本研究既提供了差异性影响的统计证据,也打造了一个旨在培养批判性人工智能素养的公共工具。

0
下载
关闭预览

相关内容

可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
人工智能军事决策支持系统中的算法偏见问题
专知会员服务
34+阅读 · 2024年9月11日
人工智能模型中公平性追求的综述
专知会员服务
23+阅读 · 2024年3月30日
【AI与警务】人工智能在打击组织性犯罪方面的挑战
专知会员服务
24+阅读 · 2022年6月28日
人工智能Paper精读班,视频讲解+代码实现
AINLP
17+阅读 · 2019年5月31日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
如何用人工智能帮你找论文?
AI100
10+阅读 · 2018年2月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Arxiv
0+阅读 · 6月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员