The rapid deployment of AI systems in high-stakes domains, including those classified as high-risk under the The EU AI Act (Regulation (EU) 2024/1689), has intensified the need for reliable compliance auditing. For binary classifiers, regulatory risk assessment often relies on global fairness metrics such as the Disparate Impact ratio, widely used to evaluate potential discrimination. In typical auditing settings, the auditee provides a subset of its dataset to an auditor, while a supervisory authority may verify whether this subset is representative of the full underlying distribution. In this work, we investigate to what extent a malicious auditee can construct a fairness-compliant yet representative-looking sample from a non-compliant original distribution, thereby creating an illusion of fairness. We formalize this problem as a constrained distributional projection task and introduce mathematically grounded manipulation strategies based on entropic and optimal transport projections. These constructions characterize the minimal distributional shift required to satisfy fairness constraints. To counter such attacks, we formalize representativeness through distributional distance based statistical tests and systematically evaluate their ability to detect manipulated samples. Our analysis highlights the conditions under which fairness manipulation can remain statistically undetected and provides practical guidelines for strengthening supervisory verification. We validate our theoretical findings through experiments on standard tabular datasets for bias detection. Code is publicly available at https://github.com/ValentinLafargue/Inspection.


翻译:人工智能系统在关键领域的快速部署(包括被《欧盟人工智能法案》(法规(EU) 2024/1689)归类为高风险的应用)加强了对可靠合规审计的需求。对于二元分类器,监管风险评估通常依赖于全局公平性指标,如差异影响比,该指标被广泛用于评估潜在歧视。在典型审计场景中,被审计方向审计员提供其数据集的一个子集,而监管机构可能验证该子集是否代表了完整的底层分布。在本研究中,我们探究恶意被审计方能在多大程度上从非合规的原始分布中构建出看似具有代表性且符合公平性要求的样本,从而制造公平性假象。我们将此问题形式化为一个约束性分布投影任务,并引入基于熵投影和最优传输投影的数学化操纵策略。这些构建方法刻画了满足公平性约束所需的最小分布偏移。为应对此类攻击,我们通过基于分布距离的统计检验来形式化代表性概念,并系统评估其检测被操纵样本的能力。我们的分析揭示了公平性操纵在何种条件下可能保持统计上的不可检测性,并为加强监管验证提供了实用指南。我们在标准表格化偏差检测数据集上通过实验验证了理论发现。代码公开于 https://github.com/ValentinLafargue/Inspection。

0
下载
关闭预览

相关内容

计算机视觉中的公平性与偏差缓解:综述
专知会员服务
19+阅读 · 2024年8月7日
可信机器学习的公平性综述
专知会员服务
69+阅读 · 2021年2月23日
专知会员服务
30+阅读 · 2021年2月21日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
7+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
4+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
3+阅读 · 4月18日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员