From Circuit Evidence to Mechanistic Theory: An Inductive Logic Approach - 专知论文

会员服务 ·

0

形式化 · ILP · 结构 · 因果分析 · 分析 ·

From Circuit Evidence to Mechanistic Theory: An Inductive Logic Approach

翻译：从电路证据到机制理论：一种归纳逻辑方法

Nura Aljaafari,Danilo S. Carvalho,Andre Freitas

from arxiv, 27 pages, 10 Figures, 14 Tables

Mechanistic interpretability produces circuit-level causal analyses of neural network behaviour, but discovered circuits often remain isolated experimental artefacts: there is no shared formal representation for what circuits compute, how they relate, or when two findings provide evidence for the same mechanism. This work provides a formal infrastructure for cumulative mechanistic science by treating circuit interpretation as inductive theory construction. Each circuit is characterised at two levels: a Causal Functional Signature (CFS), which grounds component behaviour in causal attribution evidence and token role profiles, and an architectural signature $τ_{\mathrm{arch}}$, learned by inductive logic programming (ILP) from scale-invariant structural predicates. Together, these constitute a formal coherence layer that makes mechanistic claims explicit, comparable via $θ$-subsumption, and portable across model scales. CFS reveals qualitatively distinct computational strategies across task types, including attention-mediated copying versus MLP-mediated binding. ILP signatures achieve substantially better structural separation than graph kernel and feature-vector baselines, and support principled transfer across model scales and architecture families.

翻译：机制可解释性为神经网络行为提供了电路级别的因果分析，但发现的电路往往仍是孤立的实验产物：关于电路计算什么、它们之间如何关联，或两个发现何时为同一机制提供证据，并没有共享的形式化表述。本文通过将电路解释视为归纳理论构建，为累积性的机制科学提供了形式化基础设施。每个电路在两层上进行刻画：因果函数签名（CFS），它将组件行为锚定于因果归因证据和标记角色档案；以及一个架构签名τ_arch，通过归纳逻辑编程（ILP）从尺度不变的结构谓词中学习得到。这些共同构成了一个形式化连贯层，使机制主张得以显式表达、通过θ-包容比较，并可跨模型尺度移植。CFS揭示了跨任务类型的质上不同的计算策略，包括注意力介导的复制与MLP介导的绑定。ILP签名比图核与特征向量基线方法实现了显著更好的结构分离，并支持跨模型尺度和架构家族的原则性迁移。

0

相关内容

形式化

【牛津大学博士论文】因果与可信机器学习:方法与应用，201页pdf

【牛津大学博士论文】因果与可信机器学习:方法与应用，201页pdf

专知会员服务

60+阅读 · 2024年1月9日

因果涌现：概念、理论到应用

因果涌现：概念、理论到应用

专知会员服务

70+阅读 · 2023年8月5日

卷积神经网络的可解释性研究综述

卷积神经网络的可解释性研究综述

专知会员服务

91+阅读 · 2023年6月5日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

103+阅读 · 2023年2月13日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

什么是因果深度学习？DeepMind最新ICML2022《因果性与深度学习:协同、挑战和未来》教程，183页ppt详述因果DL

什么是因果深度学习？DeepMind最新ICML2022《因果性与深度学习:协同、挑战和未来》教程，183页ppt详述因果DL

专知会员服务

201+阅读 · 2022年7月20日

【斯坦福博士论文】机器学习的模型解释和数据评估，206页pdf

专知会员服务

129+阅读 · 2021年8月3日

「因果推理」概述论文，13页pdf

专知会员服务

101+阅读 · 2021年3月20日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

顿悟体验的心理机制和动态神经基础

国家自然科学基金

0+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

图谱理论的研究及其在复杂网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

Theorem-Grounded Execution Ontologies for Interpretable Machine Reasoning

Arxiv

0+阅读 · 6月14日

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

Arxiv

0+阅读 · 6月14日

Determination Provenance: From Ambiguity to Algebra

Arxiv

0+阅读 · 6月9日

Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning

Arxiv

0+阅读 · 6月5日

Topology as Logic: Structural Role Geometry Across Formal, Software, Biological, and Prebiotic Systems

Arxiv

0+阅读 · 6月1日

Matter to Mechanism: A Benchmark for AI Co-Scientists in Materials and Battery Research

Arxiv

0+阅读 · 6月1日

Certified Circuits: Stability Guarantees for Mechanistic Circuits

Arxiv

0+阅读 · 5月28日

Linear Causal Representation Learning by Topological Ordering, Pruning, and Disentanglement

Arxiv

0+阅读 · 5月27日

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Arxiv

0+阅读 · 5月21日

The Computational Boundary of Inference: Capability Internalization, Training, and the Turing Jump

Arxiv

0+阅读 · 4月9日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

0+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

4+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

【牛津大学博士论文】因果与可信机器学习:方法与应用，201页pdf

【牛津大学博士论文】因果与可信机器学习:方法与应用，201页pdf

专知会员服务

60+阅读 · 2024年1月9日

因果涌现：概念、理论到应用

因果涌现：概念、理论到应用

专知会员服务

70+阅读 · 2023年8月5日

卷积神经网络的可解释性研究综述

卷积神经网络的可解释性研究综述

专知会员服务

91+阅读 · 2023年6月5日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

103+阅读 · 2023年2月13日

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

机器学习可解释如何客观评估？CMU-Yeh博士论文《可解释机器学习的客观标准》，148页pdf

专知会员服务

79+阅读 · 2022年11月23日

什么是因果深度学习？DeepMind最新ICML2022《因果性与深度学习:协同、挑战和未来》教程，183页ppt详述因果DL

什么是因果深度学习？DeepMind最新ICML2022《因果性与深度学习:协同、挑战和未来》教程，183页ppt详述因果DL

专知会员服务

201+阅读 · 2022年7月20日

【斯坦福博士论文】机器学习的模型解释和数据评估，206页pdf

专知会员服务

129+阅读 · 2021年8月3日

「因果推理」概述论文，13页pdf

专知会员服务

101+阅读 · 2021年3月20日

因果关联学习，Causal Relational Learning

因果关联学习，Causal Relational Learning

专知会员服务

185+阅读 · 2020年4月21日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

深度神经网络可解释性方法汇总（附TF代码实现）

深度神经网络可解释性方法汇总（附TF代码实现）

CVer

11+阅读 · 2019年11月4日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

高赞新书《可解释的机器学习》出版：理解黑盒必备，免费资源

量子位

23+阅读 · 2019年2月23日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

【强化学习】强化学习与控制理论的区别与联系；深度强化学习的课程笔记。

产业智能官

49+阅读 · 2018年7月4日

相关论文

Theorem-Grounded Execution Ontologies for Interpretable Machine Reasoning

Arxiv

0+阅读 · 6月14日

DifFRACT: Diffusion Feature Reconstruction and Attribution for Circuit Tracing

Arxiv

0+阅读 · 6月14日

Determination Provenance: From Ambiguity to Algebra

Arxiv

0+阅读 · 6月9日

Mechanistic Evidence for Faithfulness Decay in Chain-of-Thought Reasoning

Arxiv

0+阅读 · 6月5日

Topology as Logic: Structural Role Geometry Across Formal, Software, Biological, and Prebiotic Systems

Arxiv

0+阅读 · 6月1日

Matter to Mechanism: A Benchmark for AI Co-Scientists in Materials and Battery Research

Arxiv

0+阅读 · 6月1日

Certified Circuits: Stability Guarantees for Mechanistic Circuits

Arxiv

0+阅读 · 5月28日

Linear Causal Representation Learning by Topological Ordering, Pruning, and Disentanglement

Arxiv

0+阅读 · 5月27日

Towards Verifiable Transformers: Solver-Checkable Circuit Explanations

Arxiv

0+阅读 · 5月21日

The Computational Boundary of Inference: Capability Internalization, Training, and the Turing Jump

Arxiv

0+阅读 · 4月9日

相关基金

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

顿悟体验的心理机制和动态神经基础

国家自然科学基金

0+阅读 · 2015年12月31日

故障机理的不确定传播及系统故障自动推演建模方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

图谱理论的研究及其在复杂网络中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

因果推断的统计方法

国家自然科学基金

26+阅读 · 2011年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员