Actionable Interpretability Must Be Defined in Terms of Symmetries - 专知论文

会员服务 ·

0

操作 · 形式化 · 不变 · 不变性 · 可解释性 ·

Actionable Interpretability Must Be Defined in Terms of Symmetries

翻译：可操作的“可解释性”必须基于对称性定义

Pietro Barbiero,Mateo Espinosa Zarlenga,Francesco Giannini,Alberto Termine,Filippo Bonchi,Mateja Jamnik,Giuseppe Marra

This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.

翻译：本文认为，人工智能（AI）领域的可解释性研究在根本上是不适定的，因为现有可解释性定义未能阐明如何对可解释性进行形式化验证或设计。我们主张，可操作的可解释性定义必须基于能够指导模型设计并产生可检验条件的*对称性*来构建。在概率视角下，我们假设四种对称性（推断等变性、信息不变性、概念闭包不变性与结构不变性）足以：（i）将可解释模型形式化为概率模型的一个子类；（ii）将可解释推断（如对齐、干预与反事实推理）统一表述为贝叶斯逆问题的一种形式；（iii）为验证安全标准与法规的符合性提供形式化框架。

0

相关内容

可解释人工智能的基础

可解释人工智能的基础

专知会员服务

32+阅读 · 2025年10月26日

视觉基础模型的可解释性：综述

视觉基础模型的可解释性：综述

专知会员服务

26+阅读 · 2025年1月24日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【推荐论文】可解释知识使能系统基础，26页pdf，Foundations of Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识使能系统基础，26页pdf，Foundations of Explainable Knowledge-Enabled Systems

专知会员服务

34+阅读 · 2020年3月18日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

134+阅读 · 2019年12月7日

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Causality is Key for Interpretability Claims to Generalise

Arxiv

0+阅读 · 2月18日

Editable XAI: Toward Bidirectional Human-AI Alignment with Co-Editable Explanations of Interpretable Attributes

Arxiv

0+阅读 · 2月13日

An Information-Theoretic Framework for Comparing Voice and Text Explainability

Arxiv

0+阅读 · 2月6日

Interpretability in Deep Time Series Models Demands Semantic Alignment

Arxiv

0+阅读 · 2月2日

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Arxiv

0+阅读 · 1月29日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月29日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

Patterning: The Dual of Interpretability

Arxiv

0+阅读 · 1月20日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月19日

On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

可解释人工智能的基础

可解释人工智能的基础

专知会员服务

32+阅读 · 2025年10月26日

视觉基础模型的可解释性：综述

视觉基础模型的可解释性：综述

专知会员服务

26+阅读 · 2025年1月24日

可解释人工智能中的对抗攻击和防御

可解释人工智能中的对抗攻击和防御

专知会员服务

43+阅读 · 2023年6月20日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【机器推理可解释性】Machine Reasoning Explainability

【机器推理可解释性】Machine Reasoning Explainability

专知会员服务

35+阅读 · 2020年9月3日

机器学习的可解释性

机器学习的可解释性

专知会员服务

180+阅读 · 2020年8月27日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【推荐论文】可解释知识使能系统基础，26页pdf，Foundations of Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识使能系统基础，26页pdf，Foundations of Explainable Knowledge-Enabled Systems

专知会员服务

34+阅读 · 2020年3月18日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

134+阅读 · 2019年12月7日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

「强化学习可解释性」最新2022综述

「强化学习可解释性」最新2022综述

专知

12+阅读 · 2022年1月16日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Causality is Key for Interpretability Claims to Generalise

Arxiv

0+阅读 · 2月18日

Editable XAI: Toward Bidirectional Human-AI Alignment with Co-Editable Explanations of Interpretable Attributes

Arxiv

0+阅读 · 2月13日

An Information-Theoretic Framework for Comparing Voice and Text Explainability

Arxiv

0+阅读 · 2月6日

Interpretability in Deep Time Series Models Demands Semantic Alignment

Arxiv

0+阅读 · 2月2日

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Arxiv

0+阅读 · 1月29日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月29日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

Patterning: The Dual of Interpretability

Arxiv

0+阅读 · 1月20日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月19日

On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability

Arxiv

0+阅读 · 1月13日

相关基金

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

局部可视环境中基于视觉和触觉感知的灵巧手精细操作的方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员