Fair top-$k$ selection, which ensures appropriate proportional representation of members from minority or historically disadvantaged groups among the top-$k$ selected candidates, has drawn significant attention. We study the problem of finding a fair (linear) scoring function with multiple protected groups while also minimizing the disparity from a reference scoring function. This generalizes the prior setup, which was restricted to the single-group setting without disparity minimization. Previous studies imply that the number of protected groups may have a limited impact on the runtime efficiency. However, driven by the need for experimental exploration, we find that this implication overlooks a critical issue that may affect the fairness of the outcome. Once this issue is properly considered, our hardness analysis shows that the problem may become computationally intractable even for a two-dimensional dataset and small values of $k$. However, our analysis also reveals a gap in the hardness barrier, enabling us to recover the efficiency for the case of small $k$ when the number of protected groups is sufficiently small. Furthermore, beyond measuring disparity as the "distance" between the fair and the reference scoring functions, we introduce an alternative disparity measure$\unicode{x2014}$utility loss$\unicode{x2014}$that may yield a more stable scoring function under small weight perturbations. Through careful engineering trade-offs that balance implementation complexity, robustness, and performance, our augmented two-pronged solution demonstrates strong empirical performance on real-world datasets, with experimental observations also informing algorithm design and implementation decisions.


翻译:公平Top-$k$选择问题旨在确保来自少数群体或历史上处于不利地位的群体成员在选定的前k名候选人中获得合理的比例代表性,这一问题已引起广泛关注。我们研究了在多个受保护群体存在的情况下寻找公平(线性)评分函数,同时最小化与参考评分函数之间差异的问题。这推广了先前仅限于单群体设置且不考虑差异最小化的研究框架。已有研究表明,受保护群体的数量对运行效率的影响可能有限。然而,由于实验探索的需求,我们发现这一推论忽略了一个可能影响结果公平性的关键问题。一旦适当考虑该问题,我们的难度分析表明,即使对于二维数据集和较小的k值,该问题也可能变得计算上难以处理。然而,我们的分析还揭示了难度障碍中的一个漏洞,使得当受保护群体数量足够少时,我们能够在小k值情况下恢复效率。此外,除了将差异衡量为公平评分函数与参考评分函数之间的“距离”外,我们引入了一种替代的差异度量——效用损失(utility loss)——该度量在小权重扰动下可能产生更稳定的评分函数。通过精心设计权衡实现复杂性、鲁棒性和性能的工程折衷方案,我们增强的双管齐下解决方案在真实数据集上表现出强大的实证性能,同时实验观察也为算法设计和实现决策提供了指导。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【SIGMOD教程】公平性排序:从价值到技术选择,120页ppt
专知会员服务
30+阅读 · 2023年7月13日
专知会员服务
14+阅读 · 2021年3月13日
专知会员服务
30+阅读 · 2021年2月21日
浅谈最广泛应用的金融风控算法-评分卡
凡人机器学习
10+阅读 · 2020年8月3日
多因素问题分析时,如何确立各因素权重?
人人都是产品经理
75+阅读 · 2020年3月4日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员