Aligned explanations in neural networks - 专知论文

会员服务 ·

0

对齐 · 设计 · 神经网络 · 特征归因 · 学习模型 ·

Aligned explanations in neural networks

翻译：神经网络中的对齐解释

Corentin Lobet,Francesca Chiaromonte

Feature attribution is the dominant paradigm for explaining the predictions of complex machine learning models like neural networks. However, most existing methods offer little guarantee of reflecting the model's prediction-making process. We define the notion of explanatory alignment and argue that it is central to trustworthy predictive modeling: in short, it requires that explanations directly underlie predictions rather than serve as rationalizations. We present model readability as a design principle enabling alignment, and Pointwise-interpretable Networks (PiNets) as a modeling framework to pursue it in a deep learning context. PiNets combine statistical intelligence with a pseudo-linear structure that yields instance-wise linear predictions in an arbitrary feature space. We illustrate their use on image classification and segmentation tasks, demonstrating that PiNets produce explanations that are not only aligned by design but also faithful across other dimensions: meaningfulness, robustness, and sufficiency.

翻译：特征归因是解释神经网络等复杂机器学习模型预测的主流范式。然而，现有方法大多难以保证能够反映模型的预测生成过程。我们定义了"解释对齐"的概念，并论证其对可信预测建模的核心意义：简言之，该概念要求解释直接构成预测的基础，而非仅作为事后合理化说明。我们提出将模型可读性作为实现对齐的设计原则，并介绍点态可解释网络（PiNets）作为在深度学习背景下实现该原则的建模框架。PiNets将统计智能与伪线性结构相结合，可在任意特征空间中生成实例级别的线性预测。我们在图像分类与分割任务中展示了其应用，证明PiNets产生的解释不仅在设计上具有对齐性，在其他维度上也具备忠实性：包括意义明确性、鲁棒性和充分性。

0

相关内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

自解释神经网络的全面综述

自解释神经网络的全面综述

专知会员服务

19+阅读 · 2025年1月28日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【NeurIPS2021】基于预测信息识别输入特征的细粒度神经网络解释

专知会员服务

12+阅读 · 2021年10月6日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

【NeurIPS 2020】图神经网络的参数化解释器，Parameterized Explainer for GNN

【NeurIPS 2020】图神经网络的参数化解释器，Parameterized Explainer for GNN

专知会员服务

22+阅读 · 2020年11月13日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

专知会员服务

60+阅读 · 2019年11月25日

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

Alignment Makes Language Models Normative, Not Descriptive

Alignment Makes Language Models Normative, Not Descriptive

Arxiv

0+阅读 · 3月17日

An interpretable prototype parts-based neural network for medical tabular data

Arxiv

0+阅读 · 3月5日

Slice and Explain: Logic-Based Explanations for Neural Networks through Domain Slicing

Arxiv

0+阅读 · 2月25日

Unifying Formal Explanations: A Complexity-Theoretic Perspective

Arxiv

0+阅读 · 2月20日

Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

Arxiv

0+阅读 · 2月19日

Provably Explaining Neural Additive Models

Arxiv

0+阅读 · 2月19日

Relative Geometry of Neural Forecasters: Linking Accuracy and Alignment in Learned Latent Geometry

Arxiv

0+阅读 · 2月17日

VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow

Arxiv

0+阅读 · 2月17日

A Statistical Framework for Alignment with Biased AI Feedback

Arxiv

0+阅读 · 2月9日

Equivariant Neural Networks for General Linear Symmetries on Lie Algebras

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

10+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

3+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

7+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

4+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

4+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

10+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

19+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

11+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

相关VIP内容

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

自解释神经网络的全面综述

自解释神经网络的全面综述

专知会员服务

19+阅读 · 2025年1月28日

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

不同表征如何对齐？普林斯顿MIT谷歌等30位作者《表征对齐》综述，详述其框架

专知会员服务

48+阅读 · 2023年12月28日

【NeurIPS2021】基于预测信息识别输入特征的细粒度神经网络解释

专知会员服务

12+阅读 · 2021年10月6日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

【NeurIPS 2020】图神经网络的参数化解释器，Parameterized Explainer for GNN

【NeurIPS 2020】图神经网络的参数化解释器，Parameterized Explainer for GNN

专知会员服务

22+阅读 · 2020年11月13日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【上海交大】可解释CNN的对象分类，Interpretable CNNs for Object Classification

专知会员服务

54+阅读 · 2020年3月14日

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

【上海交通大学-张拳石】可解释CNN，Interpretable CNNs for Object Classification

专知会员服务

46+阅读 · 2020年3月13日

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

【AAAI2020】知识图谱对齐网络（Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation），孙泽群，胡伟

专知会员服务

60+阅读 · 2019年11月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能在全球军事与武器工业中的应用、方法论与影响》

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

相关资讯

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

更透明的AI？MIT等最新《可解释AI: 深度神经网络内部结构解释》综述，17页pdf全面阐述DNN内部可解释性技术

专知

13+阅读 · 2022年8月11日

AAAI 2022 | ProtGNN：自解释图神经网络

AAAI 2022 | ProtGNN：自解释图神经网络

专知

10+阅读 · 2022年2月28日

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

论文浅尝 | 基于图匹配神经网络的跨语言知识图对齐 (ACL 2019)

开放知识图谱

15+阅读 · 2019年11月30日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

神经网络可解释性最新进展

神经网络可解释性最新进展

专知

18+阅读 · 2018年3月10日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

学界 | 对比对齐模型：神经机器翻译中的注意力到底在注意什么

机器之心

10+阅读 · 2017年10月15日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

Alignment Makes Language Models Normative, Not Descriptive

Alignment Makes Language Models Normative, Not Descriptive

Arxiv

0+阅读 · 3月17日

An interpretable prototype parts-based neural network for medical tabular data

Arxiv

0+阅读 · 3月5日

Slice and Explain: Logic-Based Explanations for Neural Networks through Domain Slicing

Arxiv

0+阅读 · 2月25日

Unifying Formal Explanations: A Complexity-Theoretic Perspective

Arxiv

0+阅读 · 2月20日

Alignment Pretraining: AI Discourse Causes Self-Fulfilling (Mis)alignment

Arxiv

0+阅读 · 2月19日

Provably Explaining Neural Additive Models

Arxiv

0+阅读 · 2月19日

Relative Geometry of Neural Forecasters: Linking Accuracy and Alignment in Learned Latent Geometry

Arxiv

0+阅读 · 2月17日

VITAL: More Understandable Feature Visualization through Distribution Alignment and Relevant Information Flow

Arxiv

0+阅读 · 2月17日

A Statistical Framework for Alignment with Biased AI Feedback

Arxiv

0+阅读 · 2月9日

Equivariant Neural Networks for General Linear Symmetries on Lie Algebras

Arxiv

0+阅读 · 1月30日

相关基金

面向计算机视觉问题的图匹配算法研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

T-S模糊神经网络的容错同步性分析

国家自然科学基金

0+阅读 · 2015年12月31日

一对多联想记忆中的细胞神经网络建模及参数获取方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于高阶信息和深度表示的图像复原研究

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

图像修补中结构矩阵的预处理方法与理论

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

对称锥互补问题的算法研究及其在压缩感知中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

非凸非光滑优化的神经网络设计及其关键问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员