This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.


翻译:本文认为,人工智能(AI)领域的可解释性研究在根本上是不适定的,因为现有可解释性定义未能阐明如何对可解释性进行形式化验证或设计。我们主张,可操作的可解释性定义必须基于能够指导模型设计并产生可检验条件的*对称性*来构建。在概率视角下,我们假设四种对称性(推断等变性、信息不变性、概念闭包不变性与结构不变性)足以:(i)将可解释模型形式化为概率模型的一个子类;(ii)将可解释推断(如对齐、干预与反事实推理)统一表述为贝叶斯逆问题的一种形式;(iii)为验证安全标准与法规的符合性提供形式化框架。

0
下载
关闭预览

相关内容

可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
专知会员服务
102+阅读 · 2020年3月19日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
AI可解释性文献列表
专知
43+阅读 · 2019年10月7日
【资源推荐】AI可解释性资源汇总
专知
47+阅读 · 2019年4月24日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月27日
Arxiv
0+阅读 · 1月20日
VIP会员
相关VIP内容
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
视觉基础模型的可解释性:综述
专知会员服务
26+阅读 · 2025年1月24日
可解释人工智能中的对抗攻击和防御
专知会员服务
43+阅读 · 2023年6月20日
【机器推理可解释性】Machine Reasoning Explainability
专知会员服务
35+阅读 · 2020年9月3日
机器学习的可解释性
专知会员服务
179+阅读 · 2020年8月27日
专知会员服务
102+阅读 · 2020年3月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员