Determining whether an algorithmic decision-making system discriminates against a specific demographic typically involves comparing a single point estimate of a fairness metric against a predefined threshold. This practice is statistically brittle: it ignores sampling error and treats small demographic subgroups the same as large ones. The problem intensifies in intersectional analyses, where multiple sensitive attributes are considered jointly, giving rise to a larger number of smaller groups. As these groups become more granular, the data representing them becomes too sparse for reliable estimation, and fairness metrics yield excessively wide confidence intervals, precluding meaningful conclusions about potential unfair treatments. In this paper, we introduce a unified, size-adaptive, hypothesis-testing framework that turns fairness assessment into an evidence-based statistical decision. Our contribution is twofold. (i) For sufficiently large subgroups, we prove a Central-Limit result for the statistical parity difference, leading to analytic confidence intervals and a Wald test whose type-I (false positive) error is guaranteed at level $α$. (ii) For the long tail of small intersectional groups, we derive a fully Bayesian Dirichlet-multinomial estimator; Monte-Carlo credible intervals are calibrated for any sample size and naturally converge to Wald intervals as more data becomes available. We validate our approach empirically on benchmark datasets, demonstrating how our tests provide interpretable, statistically rigorous decisions under varying degrees of data availability and intersectionality.


翻译:判断一个算法决策系统是否对特定人群存在歧视,通常涉及将公平性指标的单一估计值与预设阈值进行比较。这种做法在统计学上具有脆弱性:它忽略了抽样误差,并将不同规模的人口亚组同等对待。在交叉分析中——当多个敏感属性被联合考虑时——这一问题更加严重,因为交叉分析会产生数量更多、规模更小的群体。随着这些群体变得越发细粒度,代表它们的数据变得过于稀疏,无法进行可靠估计,而公平性指标会生成过宽的置信区间,从而无法就潜在的不公平处理得出有意义的结论。在本文中,我们提出一个统一的自适应大小假设检验框架,将公平性评估转化为基于证据的统计决策。我们的贡献有两方面:(i) 针对足够大的子群体,我们证明了统计平局差分的中心极限定理,从而得到解析置信区间和Wald检验,其第一类(假阳性)错误率可保证在$α$水平上;(ii) 针对小规模交叉群体的长尾部分,我们推导出完全贝叶斯狄利克雷-多项估计量;蒙特卡洛置信区间可针对任意样本量进行校准,并随着数据增多自然收敛至Wald区间。我们通过在基准数据集上的实证验证,展示了我们的检验方法如何在数据可用性和交叉性变化的情况下,提供可解释的、统计严谨的决策。

0
下载
关闭预览

相关内容

人工智能模型中公平性追求的综述
专知会员服务
23+阅读 · 2024年3月30日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
专知会员服务
24+阅读 · 2021年8月27日
专知会员服务
30+阅读 · 2021年2月21日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
异常检测的阈值,你怎么选?给你整理好了...
机器学习算法与Python学习
10+阅读 · 2018年9月19日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员