Record matching models typically output a real-valued matching score that is later consumed through thresholding, ranking, or human review. While fairness in record matching has mostly been assessed using binary decisions at a fixed threshold, such evaluations can miss systematic disparities in the entire score distribution and can yield conclusions that change with the chosen threshold. We introduce a threshold-independent notion of score bias that extends standard group-fairness criteria-demographic parity (DP), equal opportunity (EO), and equalized odds (EOD)-from binary outputs to score functions by integrating group-wise metric gaps over all thresholds. Using this metric, we empirically show that several state-of-the-art deep matchers can exhibit substantial score bias even when appearing fair at commonly used thresholds. To mitigate these disparities without retraining the underlying matcher, we propose two model-agnostic post-processing methods that only require score evaluations on an (unlabeled) calibration set. Calib targets DP by aligning minority/majority score distributions to a common Wasserstein barycenter via a quantile-based optimal-transport map, with finite-sample guarantees on both residual DP bias and score distortion. C-Calib extends this idea to label-dependent notions (EO/EOD) by performing barycenter alignment conditionally on an estimated label, and we characterize how its guarantees depend on both sample size and label-estimation error. Experiments on standard record-matching benchmarks and multiple neural matchers confirm that Calib and C-Calib substantially reduce score bias with minimal loss in accuracy.


翻译:暂无翻译

0
下载
关闭预览

相关内容

OlymMATH: 奥林匹克级双语数学基准,R1 正确率仅为 21.2%
专知会员服务
11+阅读 · 2025年4月17日
AAAI 2024 | GCIL:因果视角下的图对比不变学习
专知会员服务
20+阅读 · 2024年3月5日
IEEE Proc.|基于知识图谱的少样本和零样本学习综述
专知会员服务
49+阅读 · 2024年2月2日
【NeurIPS2022】图谱视角下的图对比学习
专知会员服务
26+阅读 · 2022年10月9日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月23日
Arxiv
0+阅读 · 2月22日
VIP会员
相关VIP内容
OlymMATH: 奥林匹克级双语数学基准,R1 正确率仅为 21.2%
专知会员服务
11+阅读 · 2025年4月17日
AAAI 2024 | GCIL:因果视角下的图对比不变学习
专知会员服务
20+阅读 · 2024年3月5日
IEEE Proc.|基于知识图谱的少样本和零样本学习综述
专知会员服务
49+阅读 · 2024年2月2日
【NeurIPS2022】图谱视角下的图对比学习
专知会员服务
26+阅读 · 2022年10月9日
相关资讯
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
论文盘点:CVPR 2019 - 文本检测专题
PaperWeekly
14+阅读 · 2019年5月31日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩
中国科学院网络数据重点实验室
10+阅读 · 2017年6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员