Facial recognition systems are increasingly deployed in law enforcement and security contexts, where algorithmic decisions can carry significant societal consequences. Despite high reported accuracy, growing evidence demonstrates that such systems often exhibit uneven performance across demographic groups, leading to disproportionate error rates and potential harm. This paper argues that aggregate accuracy is an insufficient metric for evaluating the fairness and reliability of facial recognition systems in high-stakes environments. Through analysis of subgroup-level error distribution, including false positive rate (FPR) and false negative rate (FNR), the paper demonstrates how aggregate performance metrics can obscure critical disparities across demographic groups. Empirical observations show that systems with similar overall accuracy can exhibit substantially different fairness profiles, with subgroup error rates varying significantly despite a single aggregate metric. The paper further examines the operational risks associated with accuracy-centric evaluation practices in law enforcement applications, where misclassification may result in wrongful suspicion or missed identification. It highlights the importance of fairness-aware evaluation approaches and model-agnostic auditing strategies that enable post-deployment assessment of real-world systems. The findings emphasise the need to move beyond accuracy as a primary metric and adopt more comprehensive evaluation frameworks for responsible AI deployment.


翻译:摘要:人脸识别系统越来越多地被部署在执法和安全领域,其中算法决策可能带来重大的社会影响。尽管报告的准确率很高,但越来越多的证据表明,此类系统在不同人口群体中往往表现出不平衡的性能,导致错误率不成比例并可能造成伤害。本文认为,在高风险环境中,聚合精度是评估人脸识别系统公平性和可靠性的一个不充分指标。通过对子群体层面的错误分布(包括假阳性率(FPR)和假阴性率(FNR))进行剖析,本文展示了聚合性能指标如何能掩盖不同人口群体之间的关键差异。实证观察表明,总体准确率相近的系统可能表现出截然不同的公平性特征,尽管只有一个单一的聚合指标,但各子群体的错误率却存在显著差异。本文进一步审视了执法应用中以精度为核心的评估实践所带来的操作风险,在这些应用中,错误分类可能导致无辜被怀疑或识别遗漏。文章强调了采用公平性感知评估方法和模型无关的审计策略的重要性,这些方法能够对真实世界系统进行部署后评估。研究结果强调,有必要超越将精度作为主要指标的局限,采用更全面的评估框架以实现负责任的人工智能部署。

0
下载
关闭预览

相关内容

人工智能军事决策支持系统中的算法偏见问题
专知会员服务
34+阅读 · 2024年9月11日
人工智能模型中公平性追求的综述
专知会员服务
24+阅读 · 2024年3月30日
【AI与警务】人工智能在打击组织性犯罪方面的挑战
专知会员服务
25+阅读 · 2022年6月28日
人工智能系统可信性度量评估研究综述
专知会员服务
97+阅读 · 2022年1月30日
人脸静默活体检测最新综述
PaperWeekly
14+阅读 · 2020年8月9日
计算机视觉方向简介 | 人脸表情识别
计算机视觉life
36+阅读 · 2019年5月15日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
人脸识别技术全面总结:从传统方法到深度学习
算法与数学之美
12+阅读 · 2019年2月27日
浅谈FRVT人脸识别测评
人工智能前沿讲习班
12+阅读 · 2018年7月9日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
人脸检测与识别总结
计算机视觉战队
21+阅读 · 2017年11月29日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
无人机自主控制与人工智能:系统性综述
专知会员服务
10+阅读 · 今天7:25
巡飞弹与反无人机系统——现代战场的两大支柱
专知会员服务
3+阅读 · 今天6:54
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 今天6:52
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 今天6:33
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
10+阅读 · 6月24日
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
相关VIP内容
相关资讯
人脸静默活体检测最新综述
PaperWeekly
14+阅读 · 2020年8月9日
计算机视觉方向简介 | 人脸表情识别
计算机视觉life
36+阅读 · 2019年5月15日
再谈人脸识别损失函数综述
人工智能前沿讲习班
14+阅读 · 2019年5月7日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
人脸识别技术全面总结:从传统方法到深度学习
算法与数学之美
12+阅读 · 2019年2月27日
浅谈FRVT人脸识别测评
人工智能前沿讲习班
12+阅读 · 2018年7月9日
从传统方法到深度学习,人脸关键点检测方法综述
机器之心
14+阅读 · 2017年12月17日
人脸检测与识别总结
计算机视觉战队
21+阅读 · 2017年11月29日
从人脸识别到行人重识别,下一个风口
计算机视觉战队
13+阅读 · 2017年11月24日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员