Leakage and Interpretability in Concept-Based Models - 专知论文

会员服务 ·

0

信息泄漏 · 可解释性 · 设计 · 测高 · 识别 ·

Leakage and Interpretability in Concept-Based Models

翻译：概念模型中的信息泄漏与可解释性

Enrico Parisini,Tapabrata Chakraborti,Chris Harbron,Ben D. MacArthur,Christopher R. S. Banerji

from arxiv, 39 pages, 25 figures

Concept-based Models aim to improve interpretability by predicting high-level intermediate concepts, representing a promising approach for deployment in high-risk scenarios. However, they are known to suffer from information leakage, whereby models exploit unintended information encoded within the learned concepts. We introduce an information-theoretic framework to rigorously characterise and quantify leakage, and define two complementary measures: the concepts-task leakage (CTL) and interconcept leakage (ICL) scores. We show that these measures are strongly predictive of model behaviour under interventions and outperform existing alternatives. Using this framework, we identify the primary causes of leakage and, as a case study, analyse how it manifests in Concept Embedding Models, revealing interconcept and alignment leakage in addition to the concepts-task leakage present by design. Finally, we present a set of practical guidelines for designing concept-based models to reduce leakage and ensure interpretability.

翻译：概念模型旨在通过预测高层中间概念来提升可解释性，这是在高风险场景中部署时极具前景的方法。然而，这类模型存在信息泄漏问题——模型会利用所学概念中编码的意外信息。我们引入了一个信息论框架，用以严格刻画并量化泄漏，并定义了两个互补指标：概念-任务泄漏分数与概念间泄漏分数。研究表明，这两个指标能强有力地预测模型在干预下的行为，且优于现有替代方案。通过该框架，我们识别了泄漏的主要成因，并以概念嵌入模型为案例进行分析，揭示了除设计中存在的概念-任务泄漏外，还涉及概念间泄漏与对齐泄漏。最后，我们提出了设计概念模型以降低泄漏并保障可解释性的实用指南。

0

相关内容

信息泄漏

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

【博士论文】机器学习模型的可解释性：从数据适应性到用户感知

【博士论文】机器学习模型的可解释性：从数据适应性到用户感知

专知会员服务

58+阅读 · 2024年2月20日

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

专知会员服务

78+阅读 · 2024年1月24日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【2023新书】解释模型分析:探索、解释和检验预测模型，327页pdf

【2023新书】解释模型分析:探索、解释和检验预测模型，327页pdf

专知会员服务

88+阅读 · 2023年4月10日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

专知会员服务

47+阅读 · 2022年4月11日

【哈佛大学】最新《理解模型可解释性》综述报告，45页ppt

专知会员服务

77+阅读 · 2020年12月4日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

受限空间中多个危险重气泄漏源的快速辨识问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

In Defense of Information Leakage in Concept-based Models

Arxiv

0+阅读 · 6月9日

A Unified Theory of Sparse Dictionary Learning in Mechanistic Interpretability: Piecewise Biconvexity and Spurious Minima

Arxiv

0+阅读 · 4月22日

Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective

Arxiv

0+阅读 · 4月20日

Sketching the Readout of Large Language Models for Scalable Data Attribution and Valuation

Arxiv

0+阅读 · 4月17日

Prototype-Grounded Concept Models for Verifiable Concept Alignment

Arxiv

0+阅读 · 4月17日

ConfusionPrompt: Practical Private Inference for Online Large Language Models

Arxiv

0+阅读 · 4月8日

Real-Time Explanations for Tabular Foundation Models

Arxiv

0+阅读 · 3月31日

SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models

Arxiv

0+阅读 · 3月31日

Detecting speculative leaks with compositional semantics

Arxiv

0+阅读 · 3月31日

Explainability for Large Language Models: A Survey

Arxiv

18+阅读 · 2023年9月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

2+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

迈向透明人工智能（AI）：可解释性语言模型综述

迈向透明人工智能（AI）：可解释性语言模型综述

专知会员服务

15+阅读 · 2025年9月29日

【博士论文】机器学习模型的可解释性：从数据适应性到用户感知

【博士论文】机器学习模型的可解释性：从数据适应性到用户感知

专知会员服务

58+阅读 · 2024年2月20日

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

大模型如何可解释？帝国理工最新《大型语言模型的解释性》最新综述

专知会员服务

78+阅读 · 2024年1月24日

可解释的机器学习模型和架构

可解释的机器学习模型和架构

专知会员服务

92+阅读 · 2023年9月17日

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

大模型如何可解释？新泽西理工学院等最新《大型语言模型可解释性》综述

专知会员服务

98+阅读 · 2023年9月11日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【2023新书】解释模型分析:探索、解释和检验预测模型，327页pdf

【2023新书】解释模型分析:探索、解释和检验预测模型，327页pdf

专知会员服务

88+阅读 · 2023年4月10日

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

到底什么是有用的ML可解释性？伯克利郁彬高徒Singh68页博士论文《现实世界的机器学习中有用的可解释性》全面综述可解释性技术

专知会员服务

119+阅读 · 2022年5月16日

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

【干货书】1270页pdf《概率图模型：原理与技术》MIT出版，用于构建和使用复杂系统概率模型的通用框架，使计算机能够使用可用信息做出决策。Probabilistic Graphical Models: Principles and Applications

专知会员服务

47+阅读 · 2022年4月11日

【哈佛大学】最新《理解模型可解释性》综述报告，45页ppt

专知会员服务

77+阅读 · 2020年12月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

深度学习可解释性研究进展

深度学习可解释性研究进展

专知

19+阅读 · 2020年6月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

医疗中的自动机器学习和可解释性

医疗中的自动机器学习和可解释性

专知

24+阅读 · 2019年4月1日

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

【Awesome】最全的机器学习可解释性资料（machine-learning-interpretability）

专知

29+阅读 · 2019年3月1日

【UC伯克利】可解释性机器学习：定义、方法和应用

【UC伯克利】可解释性机器学习：定义、方法和应用

专知

70+阅读 · 2019年1月19日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

In Defense of Information Leakage in Concept-based Models

Arxiv

0+阅读 · 6月9日

A Unified Theory of Sparse Dictionary Learning in Mechanistic Interpretability: Piecewise Biconvexity and Spurious Minima

Arxiv

0+阅读 · 4月22日

Understanding Secret Leakage Risks in Code LLMs: A Tokenization Perspective

Arxiv

0+阅读 · 4月20日

Sketching the Readout of Large Language Models for Scalable Data Attribution and Valuation

Arxiv

0+阅读 · 4月17日

Prototype-Grounded Concept Models for Verifiable Concept Alignment

Arxiv

0+阅读 · 4月17日

ConfusionPrompt: Practical Private Inference for Online Large Language Models

Arxiv

0+阅读 · 4月8日

Real-Time Explanations for Tabular Foundation Models

Arxiv

0+阅读 · 3月31日

SNEAK: Evaluating Strategic Communication and Information Leakage in Large Language Models

Arxiv

0+阅读 · 3月31日

Detecting speculative leaks with compositional semantics

Arxiv

0+阅读 · 3月31日

Explainability for Large Language Models: A Survey

Arxiv

18+阅读 · 2023年9月2日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

受限空间中多个危险重气泄漏源的快速辨识问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员