Standard fairness audits of foundation models quantify that a model is biased, but not where inside the network the bias resides. We propose a mechanistic fairness audit that combines projected residual-stream decomposition, zero-shot Concept Activation Vectors, and bias-augmented TextSpan analysis to locate demographic bias at the level of individual attention heads in vision transformers. As a feasibility case study, we apply this pipeline to the CLIP ViT-L-14 encoder on 42 profession classes of the FACET benchmark, auditing both gender and age bias. For gender, the pipeline identifies four terminal-layer heads whose ablation reduces global bias (Cramer's V: 0.381 -> 0.362) while marginally improving accuracy (+0.42%); a layer-matched random control confirms that this effect is specific to the identified heads. A single head in the final layer contributes to the majority of the reduction in the most stereotyped classes, and class-level analysis shows that corrected predictions shift toward the correct occupation. For age, the same pipeline identifies candidate heads, but ablation produces weaker and less consistent effects, suggesting that age bias is encoded more diffusely than gender bias in this model. These results provide preliminary evidence that head-level bias localisation is feasible for discriminative vision encoders and that the degree of localisability may vary across protected attributes. keywords: Bias . CLIP . Mechanistic Interpretability . Vision Transformer . Fairness


翻译:基础模型的标准化公平性审计仅量化模型存在偏差,但无法确定偏差在网络中的具体位置。我们提出一种机制化公平性审计方法,该方法结合投影残差流分解、零样本概念激活向量和偏差增强的TextSpan分析,以定位视觉Transformer中单个注意力头层面的人口统计偏差。作为可行性案例研究,我们将此流程应用于CLIP ViT-L-14编码器,针对FACET基准测试的42个职业类别进行性别和年龄偏差审计。对于性别偏差,该流程识别出四个末端层注意力头,其消融使全局偏差降低(Cramer's V:0.381 -> 0.362)同时略微提升准确率(+0.42%);层匹配随机对照实验证实该效果特定于所识别的注意力头。末层中单个注意力头对刻板印象最严重类别的偏差减少贡献最大,类别层面分析显示修正后的预测更趋向正确职业。对于年龄偏差,相同流程识别出候选注意力头,但消融产生较弱且不一致的效果,表明该模型中年龄偏差的编码方式比性别偏差更为分散。这些结果为判别式视觉编码器可实现注意力头层面偏差定位提供了初步证据,且可定位程度可能随保护属性不同而变化。关键词:偏差 . CLIP . 机制可解释性 . 视觉Transformer . 公平性

0
下载
关闭预览

相关内容

【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
专知会员服务
16+阅读 · 2021年8月2日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
【干货】基于Keras的注意力机制实战
专知
59+阅读 · 2018年5月4日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
【NTU博士论文】3D人体动作生成
专知会员服务
1+阅读 · 今天14:48
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
7+阅读 · 今天8:46
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
9+阅读 · 今天5:37
《多域作战面临复杂现实》
专知会员服务
7+阅读 · 今天5:35
《印度的多域作战:条令与能力发展》报告
专知会员服务
3+阅读 · 今天5:24
相关VIP内容
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
专知会员服务
16+阅读 · 2021年8月2日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员