Explainable AI (XAI) methods reveal which features influence model predictions, yet provide limited means for practitioners to act on these explanations. Activation steering of components identified via XAI offers a path toward actionable explanations, although its practical utility remains understudied. We introduce an interactive workflow combining SAE-based attribution with activation steering for instance-level analysis of concept usage in vision models, implemented as a web-based tool. Based on this workflow, we conduct semi-structured expert interviews (N=8) with debugging tasks on CLIP to investigate how practitioners reason about, trust, and apply activation steering. We find that steering enables a shift from inspection to intervention-based hypothesis testing (8/8 participants), with most grounding trust in observed model responses rather than explanation plausibility alone (6/8). Participants adopted systematic debugging strategies dominated by component suppression (7/8) and highlighted risks including ripple effects and limited generalization of instance-level corrections. Overall, activation steering renders interpretability more actionable while raising important considerations for safe and effective use.


翻译:可解释人工智能(XAI)方法虽能揭示影响模型预测的特征,但实践者据此采取行动的手段十分有限。针对XAI识别出的模型组件进行激活引导,为构建可操作的解释提供了路径,但其实际效用仍待深入研究。我们提出一种结合基于稀疏自编码器(SAE)的归因与激活引导的交互式工作流程,用于视觉模型中概念使用模式的实例级分析,并实现为网页工具。基于该流程,我们以CLIP模型调试任务为场景,开展半结构化专家访谈(N=8),探究实践者如何推理、信任及应用激活引导。研究发现:激活引导促使参与者从"观察式分析"转向"基于干预的假设验证"(8/8),多数参与者(6/8)将信任建立在模型响应观察而非解释表面合理性上。参与者采用以组件抑制为主的系统调试策略(7/8),同时指出涟漪效应与实例级校正泛化能力有限等风险。总体而言,激活引导在提升可解释性可操作性的同时,也引出了安全有效使用的重要考量。

0
下载
关闭预览

相关内容

可解释强化学习综述:目标、方法与需求
专知会员服务
31+阅读 · 2025年7月19日
可解释人工智能综合指南:从经典模型到大规模语言模型
专知会员服务
37+阅读 · 2024年12月28日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
【干货书】可解释人工智能(xAI)方法和深度元学习模型
专知会员服务
62+阅读 · 2020年9月13日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
激活函数还是有一点意思的!
计算机视觉战队
12+阅读 · 2019年6月28日
可解释AI(XAI)工具集—DrWhy
专知
25+阅读 · 2019年6月4日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 4月8日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员