In Defense of Information Leakage in Concept-based Models - 专知论文

会员服务 ·

0

信息泄露 · CMS · 表示 · 约束 · 完整性 ·

In Defense of Information Leakage in Concept-based Models

翻译：基于概念模型的中的信息泄露辩护

Mateo Espinosa Zarlenga

from arxiv, Accepted as a position paper at the Forty-Third International Conference on Machine Learning (ICML 2026)

Concept-based models (CMs), deep neural networks that ground their predictions on representations aligned with human-understandable concepts (e.g., "round", "stripes", etc.), have been shown to learn representations that leak concept-irrelevant information. As the traditional narrative goes, this leakage is undesirable and should be eradicated as it leads to uninterpretable models. In this paper, we posit that this conventional view of leakage in CMs is not only ill-posed, as the evidence of how leakage makes a model less interpretable is often inconclusive, but also bound to lead to impractical CMs under common real-world constraints. Specifically, we argue that in real-world settings where concept incompleteness is the norm, some leakage is often necessary for constructing accurate and intervenable CMs. To this end, we propose that there is such a thing as benign leakage and show that, by optimizing a reframing of the typical CM training objective, CMs can encourage and exploit this form of leakage without sacrificing accuracy or intervenability.

翻译：基于概念模型（CMs）是一类将预测建立在与人可理解概念（例如“圆形”、“条纹”等）对齐表示之上的深度神经网络，已有研究表明这些模型会学习到泄露概念无关信息的表示。按照传统观点，这种信息泄露是不受欢迎的，应予以消除，因为它会导致模型不可解释。本文认为，CMs中这种关于泄露的传统观点不仅不恰当——因为泄露如何导致模型可解释性降低的证据往往不具决定性——而且在实际常见约束下必然导致不实用的CMs。具体而言，我们主张在概念不完整性成为常态的现实场景中，一定程度的泄露对于构建准确且可干预的CMs往往是必要的。为此，我们提出存在良性信息泄露的概念，并表明通过优化典型CM训练目标的重新定义，CMs能够在不牺牲准确性或可干预性的前提下促进并利用这种形式的泄露。

0

相关内容

信息泄露

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】利用信息论工具进行基础模型分析

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

专知会员服务

30+阅读 · 2022年7月20日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

THU数据派

29+阅读 · 2019年4月13日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Information Leakage Detection through Approximate Bayes-optimal Prediction

Arxiv

0+阅读 · 6月15日

Model Stealing Through the Lens of Model Multiplicity

Arxiv

0+阅读 · 6月13日

From Prompts to Responses: Dual-Sided Data Leakage and Defense in Split Large Language Models

Arxiv

0+阅读 · 6月12日

Proto-LeakNet: Towards Signal-Leak Aware Attribution in Synthetic Human Face Imagery

Arxiv

0+阅读 · 6月11日

A prior-free blind detection of information leakage from model predictions

Arxiv

0+阅读 · 6月9日

Prototype-Grounded Concept Models for Verifiable Concept Alignment

Arxiv

0+阅读 · 5月21日

Towards the Anonymization of the Language Modeling

Arxiv

0+阅读 · 5月20日

Concise and Logically Consistent Conformal Sets for Neuro-Symbolic Concept-Based Models

Arxiv

0+阅读 · 5月18日

Evaluating the False Trust engendered by LLM Explanations

Arxiv

0+阅读 · 5月11日

Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

11+阅读 · 1月19日

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】利用信息论工具进行基础模型分析

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

通信网络中大型语言模型的后门攻击的综述

通信网络中大型语言模型的后门攻击的综述

专知会员服务

30+阅读 · 2023年9月5日

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

ChatGPT背后的大模型技术如何炼？MSU等最新《预训练基础模型综述》，97页pdf全面阐述BERT到ChatGPT历史脉络

专知会员服务

173+阅读 · 2023年2月22日

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

《IMPACTS：一个人机协作的信任模型》加拿大国防研级与发展部

专知会员服务

30+阅读 · 2022年7月20日

网络攻击模型研究综述

专知会员服务

56+阅读 · 2020年12月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【GNN】MPNN：消息传递神经网络

【GNN】MPNN：消息传递神经网络

深度学习自然语言处理

17+阅读 · 2020年4月11日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

基于模型系统的系统设计

基于模型系统的系统设计

科技导报

10+阅读 · 2019年4月25日

Attention！注意力机制模型最新综述（附下载）

Attention！注意力机制模型最新综述（附下载）

THU数据派

29+阅读 · 2019年4月13日

Attention！注意力机制模型最新综述

Attention！注意力机制模型最新综述

中国人工智能学会

18+阅读 · 2019年4月8日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【学界】机器学习模型的“可解释性”到底有多重要？

【学界】机器学习模型的“可解释性”到底有多重要？

GAN生成式对抗网络

12+阅读 · 2018年3月3日

相关论文

Information Leakage Detection through Approximate Bayes-optimal Prediction

Arxiv

0+阅读 · 6月15日

Model Stealing Through the Lens of Model Multiplicity

Arxiv

0+阅读 · 6月13日

From Prompts to Responses: Dual-Sided Data Leakage and Defense in Split Large Language Models

Arxiv

0+阅读 · 6月12日

Proto-LeakNet: Towards Signal-Leak Aware Attribution in Synthetic Human Face Imagery

Arxiv

0+阅读 · 6月11日

A prior-free blind detection of information leakage from model predictions

Arxiv

0+阅读 · 6月9日

Prototype-Grounded Concept Models for Verifiable Concept Alignment

Arxiv

0+阅读 · 5月21日

Towards the Anonymization of the Language Modeling

Arxiv

0+阅读 · 5月20日

Concise and Logically Consistent Conformal Sets for Neuro-Symbolic Concept-Based Models

Arxiv

0+阅读 · 5月18日

Evaluating the False Trust engendered by LLM Explanations

Arxiv

0+阅读 · 5月11日

Can You Keep a Secret? Involuntary Information Leakage in Language Model Writing

Arxiv

0+阅读 · 5月11日

相关基金

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

面向时空特性的社交网络推演攻击与隐私保护关键技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

数据流发布中的隐私保护理论和方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络用户隐私担忧与主动性泄露隐私信息之间的悖论：理论探索和基于社交网络的实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员