Actionable Interpretability Must Be Defined in Terms of Symmetries - 专知论文

会员服务 ·

0

操作 · 形式化 · 不变 · 不变性 · 可解释性 ·

Actionable Interpretability Must Be Defined in Terms of Symmetries

翻译：可操作的模型可解释性必须基于对称性定义

Pietro Barbiero,Mateo Espinosa Zarlenga,Francesco Giannini,Alberto Termine,Filippo Bonchi,Mateja Jamnik,Giuseppe Marra

This paper argues that interpretability research in Artificial Intelligence (AI) is fundamentally ill-posed as existing definitions of interpretability fail to describe how interpretability can be formally tested or designed for. We posit that actionable definitions of interpretability must be formulated in terms of *symmetries* that inform model design and lead to testable conditions. Under a probabilistic view, we hypothesise that four symmetries (inference equivariance, information invariance, concept-closure invariance, and structural invariance) suffice to (i) formalise interpretable models as a subclass of probabilistic models, (ii) yield a unified formulation of interpretable inference (e.g., alignment, interventions, and counterfactuals) as a form of Bayesian inversion, and (iii) provide a formal framework to verify compliance with safety standards and regulations.

翻译：本文认为，人工智能（AI）领域的可解释性研究在根本上是不适定的，因为现有可解释性定义未能阐明如何对可解释性进行形式化验证或设计。我们主张，可操作的可解释性定义必须基于能够指导模型设计并产生可检验条件的*对称性*来构建。在概率视角下，我们假设四种对称性（推理等变性、信息不变性、概念闭包不变性与结构不变性）足以实现以下目标：（i）将可解释模型形式化为概率模型的子类；（ii）将可解释推理（如对齐、干预与反事实推理）统一表述为贝叶斯逆问题的一种形式；（iii）为验证安全标准与法规的合规性提供形式化框架。

0

相关内容

可解释人工智能的基础

可解释人工智能的基础

专知会员服务

32+阅读 · 2025年10月26日

视觉基础模型的可解释性：综述

视觉基础模型的可解释性：综述

专知会员服务

26+阅读 · 2025年1月24日

可解释人工智能综合指南：从经典模型到大规模语言模型

可解释人工智能综合指南：从经典模型到大规模语言模型

专知会员服务

37+阅读 · 2024年12月28日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

基于规则的建模方法的可解释性及其发展

专知会员服务

104+阅读 · 2021年6月23日

机器学习的可解释性

机器学习的可解释性

专知会员服务

179+阅读 · 2020年8月27日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

134+阅读 · 2019年12月7日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Interpretability-by-Design with Accurate Locally Additive Models and Conditional Feature Effects

Arxiv

0+阅读 · 2月18日

Additive Models Explained: A Computational Complexity Approach

Arxiv

0+阅读 · 2月5日

Interpretability in Deep Time Series Models Demands Semantic Alignment

Arxiv

0+阅读 · 2月2日

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Arxiv

0+阅读 · 1月29日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月28日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月22日

Patterning: The Dual of Interpretability

Arxiv

0+阅读 · 1月20日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月19日

On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

2+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

3+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

1+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

2+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

2+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

1+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

12+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

可解释人工智能的基础

可解释人工智能的基础

专知会员服务

32+阅读 · 2025年10月26日

视觉基础模型的可解释性：综述

视觉基础模型的可解释性：综述

专知会员服务

26+阅读 · 2025年1月24日

可解释人工智能综合指南：从经典模型到大规模语言模型

可解释人工智能综合指南：从经典模型到大规模语言模型

专知会员服务

37+阅读 · 2024年12月28日

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

【柏林工业大学博士论文】可解释结构化机器学习:对相似性、图和Transformer模型的洞察，143页pdf

专知会员服务

46+阅读 · 2023年2月28日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

基于规则的建模方法的可解释性及其发展

专知会员服务

104+阅读 · 2021年6月23日

机器学习的可解释性

机器学习的可解释性

专知会员服务

179+阅读 · 2020年8月27日

综述：可解释的知识系统发展方向，附17页论文下载

专知会员服务

102+阅读 · 2020年3月19日

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

【XAI研讨会】知识图谱中的可解释可验证表示学习，62页ppt

专知会员服务

134+阅读 · 2019年12月7日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

AI可解释性文献列表

AI可解释性文献列表

专知

43+阅读 · 2019年10月7日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Interpretability-by-Design with Accurate Locally Additive Models and Conditional Feature Effects

Arxiv

0+阅读 · 2月18日

Additive Models Explained: A Computational Complexity Approach

Arxiv

0+阅读 · 2月5日

Interpretability in Deep Time Series Models Demands Semantic Alignment

Arxiv

0+阅读 · 2月2日

Clarity: The Flexibility-Interpretability Trade-Off in Sparsity-aware Concept Bottleneck Models

Arxiv

0+阅读 · 1月29日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月28日

Evaluating Actionability in Explainable AI

Arxiv

0+阅读 · 1月27日

Locate, Steer, and Improve: A Practical Survey of Actionable Mechanistic Interpretability in Large Language Models

Arxiv

0+阅读 · 1月22日

Patterning: The Dual of Interpretability

Arxiv

0+阅读 · 1月20日

Actionable Interpretability Must Be Defined in Terms of Symmetries

Arxiv

0+阅读 · 1月19日

On the Theoretical Foundation of Sparse Dictionary Learning in Mechanistic Interpretability

Arxiv

0+阅读 · 1月13日

相关基金

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

对偶三角模-余模逻辑的语义理论与应用

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于构件的可信软件构造及其行为动态可信测评

国家自然科学基金

1+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员