Explainable AI (XAI) has become critical as transformer-based models are deployed in high-stakes applications including healthcare, legal systems, and financial services, where opacity hinders trust and accountability. Transformers self-attention mechanisms have proven valuable for model interpretability, with attention weights successfully used to understand model focus and behavior (Xu et al., 2015); (Wiegreffe and Pinter, 2019). However, existing attention-based explanation methods rely on manually defined aggregation strategies and fixed attribution rules (Abnar and Zuidema, 2020a); (Chefer et al., 2021), while model-agnostic approaches (LIME, SHAP) treat the model as a black box and incur significant computational costs through input perturbation. We introduce Explanation Network (ExpNet), a lightweight neural network that learns an explicit mapping from transformer attention patterns to token-level importance scores. Unlike prior methods, ExpNet discovers optimal attention feature combinations automatically rather than relying on predetermined rules. We evaluate ExpNet in a challenging cross-task setting and benchmark it against a broad spectrum of model-agnostic methods and attention-based techniques spanning four methodological families.


翻译:随着基于Transformer的模型被部署于医疗、司法系统和金融服务等高风险应用领域,可解释人工智能(XAI)已变得至关重要——模型的不透明性会阻碍信任建立与责任追溯。Transformer的自注意力机制已被证明对模型可解释性具有重要价值,注意力权重已成功用于理解模型的关注焦点与行为特征(Xu等人,2015;Wiegreffe与Pinter,2019)。然而,现有基于注意力的解释方法依赖于人工定义的聚合策略与固定归因规则(Abnar与Zuidema,2020a;Chefer等人,2021),而模型无关方法(如LIME、SHAP)将模型视为黑箱,并通过输入扰动产生高昂计算成本。本文提出解释网络(ExpNet),这是一种轻量级神经网络,可学习从Transformer注意力模式到词元级重要性评分的显式映射。与先前方法不同,ExpNet能自动发现最优的注意力特征组合,而非依赖预设规则。我们在具有挑战性的跨任务场景中评估ExpNet,并将其与涵盖四大方法体系的模型无关方法及基于注意力的技术进行基准比较。

0
下载
关闭预览

相关内容

可解释强化学习综述:目标、方法与需求
专知会员服务
31+阅读 · 2025年7月19日
《视觉Transformers自监督学习机制综述》
专知会员服务
29+阅读 · 2024年9月2日
可解释人工智能中基于梯度的特征归因技术综述
专知会员服务
29+阅读 · 2024年3月20日
【ICML2022】Transformer是元强化学习器
专知会员服务
56+阅读 · 2022年6月15日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
最新《注意力机制与深度学习结合》综述论文
专知会员服务
76+阅读 · 2021年6月17日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Arxiv
31+阅读 · 2023年1月8日
VIP会员
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
Attention!注意力机制模型最新综述
中国人工智能学会
18+阅读 · 2019年4月8日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
深度学习中的注意力机制
人工智能头条
16+阅读 · 2017年11月2日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员