Deep neural networks are vulnerable to adversarial perturbations that can simultaneously degrade prediction robustness and individual fairness across diverse application settings. However, existing evaluation protocols typically assess these dimensions in isolation, thereby obscuring critical failure modes. To bridge this gap, we formalize Robust Individual Fairness (RIF): under semantic-preserving (truth-condition-preserving) perturbations, predictions should remain both correct with respect to the ground truth and invariant across semantically equivalent individuals. To surface RIF violations in practice, we introduce RIFair, a black-box adversarial framework that leverages a decoupled perturbation strategy to construct semantically preserved yet unrobust and/or unfair instance pairs. Experiments across multiple model architectures and real-world textual datasets show that robustness-only or fairness-only metrics often miss Robust Biased and Unrobust Fair behaviors. RIFair}reliably exposes these hidden vulnerabilities, supporting RIF as a necessary criterion for trustworthy model assessment. The experimental code is publicly available at https://github.com/Xuran-LI/RIFair.


翻译:深度神经网络容易受到对抗性扰动的影响,这种扰动在各种应用场景中会同时降低预测鲁棒性和个体公平性。然而,现有的评估协议通常孤立地评估这些维度,从而掩盖了关键的失效模式。为弥补这一差距,我们形式化定义了鲁棒个体公平性(RIF):在保持语义(保持真实条件)的扰动下,预测结果应既相对于真实标签保持正确,又在语义等价的个体间保持不变。为了在实践中暴露RIF的违反情况,我们提出了RIFair——一个黑盒对抗框架,它利用解耦扰动策略构建语义保持但缺乏鲁棒性和/或公平性的实例对。在多种模型架构和真实世界文本数据集上的实验表明,仅关注鲁棒性或仅关注公平性的度量标准往往容易遗漏鲁棒性偏差行为和欠鲁棒公平行为。RIFair能够可靠地揭示这些隐藏的脆弱性,从而支持将RIF作为可信模型评估的必要标准。实验代码已开源在https://github.com/Xuran-LI/RIFair。

0
下载
关闭预览

相关内容

论学习、公平性与复杂度
专知会员服务
11+阅读 · 2月28日
大型语言模型中隐性与显性偏见的综合研究
专知会员服务
17+阅读 · 2025年11月25日
大型语言模型公平性
专知会员服务
41+阅读 · 2023年8月31日
专知会员服务
26+阅读 · 2021年1月21日
专知会员服务
101+阅读 · 2020年7月20日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
相关性≠因果:概率图模型和do-calculus
论智
31+阅读 · 2018年10月29日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
FCS 论坛 | 孟德宇:误差建模原理
FCS
15+阅读 · 2017年8月17日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员