Explainable Artificial Intelligence (XAI) is becoming increasingly essential for enhancing the transparency of machine learning (ML) models. Among the various XAI techniques, counterfactual explanations (CFs) hold a pivotal role due to their ability to illustrate how changes in input features can alter an ML model's decision, thereby offering actionable recourse to users. Ensuring that individuals with comparable attributes and those belonging to different protected groups (e.g., demographic) receive similar and actionable recourse options is essential for trustworthy and fair decision-making. In this work, we address this challenge directly by focusing on the generation of fair CFs. Specifically, we start by defining and formulating fairness at: 1) individual fairness, ensuring that similar individuals receive similar CFs, 2) group fairness, ensuring equitable CFs across different protected groups and 3) hybrid fairness, which accounts for both individual and broader group-level fairness. We formulate the problem as an optimization task and propose a novel model-agnostic, reinforcement learning based approach to generate CFs that satisfy fairness constraints at both the individual and group levels, two objectives that are usually treated as orthogonal. As fairness metrics, we extend existing metrics commonly used for auditing ML models, such as equal choice of recourse and equal effectiveness across individuals and groups. We evaluate our approach on three benchmark datasets, showing that it effectively ensures individual and group fairness while preserving the quality of the generated CFs in terms of proximity and plausibility, and quantify the cost of fairness in the different levels separately. Our work opens a broader discussion on hybrid fairness and its role and implications for XAI and beyond CFs.


翻译:可解释人工智能(XAI)对于提升机器学习(ML)模型的透明度日益重要。在众多XAI技术中,反事实解释(CFs)因其能够阐明输入特征的变化如何改变ML模型的决策,从而为用户提供可操作的救济方案,具有关键作用。确保具有相似属性的个体以及属于不同受保护群体(如人口统计学群体)的用户获得相似且可操作的救济选项,对于实现可信赖且公平的决策至关重要。在本工作中,我们通过聚焦于公平CFs的生成来直接应对这一挑战。具体而言,我们首先从以下三个层面定义并形式化公平性:1)个体公平性,确保相似个体获得相似的CFs;2)群体公平性,确保不同受保护群体间获得公平的CFs;3)混合公平性,兼顾个体与更广泛的群体层面公平性。我们将该问题形式化为一个优化任务,并提出一种新颖的、与模型无关的、基于强化学习的方法来生成同时满足个体与群体层面公平性约束的CFs——这两个目标通常被视为正交的。作为公平性度量指标,我们扩展了常用于审计ML模型的现有指标,例如个体与群体间的平等救济选择权和平等有效性。我们在三个基准数据集上评估了我们的方法,结果表明,该方法在保持生成CFs在邻近性与合理性方面质量的同时,能有效确保个体与群体公平性,并分别量化了不同层面公平性的代价。我们的工作开启了关于混合公平性及其在XAI乃至CFs之外的作用与影响的更广泛讨论。

0
下载
关闭预览

相关内容

可解释强化学习综述:目标、方法与需求
专知会员服务
31+阅读 · 2025年7月19日
多模态可解释人工智能综述:过去、现在与未来
专知会员服务
45+阅读 · 2024年12月20日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
【资源推荐】AI可解释性资源汇总
专知
47+阅读 · 2019年4月24日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员