Auditing Language Model Unlearning via Information Decomposition - 专知论文

会员服务 ·

0

分解 · 表示 · 分解的 · 知识 · 语言模型 ·

Auditing Language Model Unlearning via Information Decomposition

翻译：基于信息分解的语言模型遗忘审计

Anmol Goel,Alan Ritter,Iryna Gurevych

from arxiv, EACL 2026 Main

We expose a critical limitation in current approaches to machine unlearning in language models: despite the apparent success of unlearning algorithms, information about the forgotten data remains linearly decodable from internal representations. To systematically assess this discrepancy, we introduce an interpretable, information-theoretic framework for auditing unlearning using Partial Information Decomposition (PID). By comparing model representations before and after unlearning, we decompose the mutual information with the forgotten data into distinct components, formalizing the notions of unlearned and residual knowledge. Our analysis reveals that redundant information, shared across both models, constitutes residual knowledge that persists post-unlearning and correlates with susceptibility to known adversarial reconstruction attacks. Leveraging these insights, we propose a representation-based risk score that can guide abstention on sensitive inputs at inference time, providing a practical mechanism to mitigate privacy leakage. Our work introduces a principled, representation-level audit for unlearning, offering theoretical insight and actionable tools for safer deployment of language models.

翻译：我们揭示了当前语言模型机器遗忘方法的一个关键局限：尽管遗忘算法在表面上取得了成功，但关于被遗忘数据的信息仍可从内部表示中线性解码。为系统评估这一差异，我们引入了一个基于部分信息分解的可解释信息论框架，用于审计遗忘过程。通过比较遗忘前后的模型表示，我们将与被遗忘数据的互信息分解为不同成分，从而形式化了“已遗忘知识”与“残留知识”的概念。我们的分析表明，冗余信息——即在两个模型间共享的信息——构成了遗忘后仍持续存在的残留知识，并与已知对抗性重建攻击的易感性相关。基于这些发现，我们提出了一种基于表示的风险评分，可在推理阶段指导模型对敏感输入进行弃权判断，为缓解隐私泄露提供了实用机制。本研究为遗忘过程引入了原则性的表示层审计方法，为语言模型的安全部署提供了理论洞见和可操作工具。

0

相关内容

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

大型语言模型中的数字遗忘：遗忘方法的综述

大型语言模型中的数字遗忘：遗忘方法的综述

专知会员服务

33+阅读 · 2024年4月8日

【CVPR2024】持续遗忘对于预训练视觉模型

【CVPR2024】持续遗忘对于预训练视觉模型

专知会员服务

19+阅读 · 2024年3月20日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）

夕小瑶的卖萌屋

36+阅读 · 2018年4月3日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

Governing AI Forgetting: Auditing for Machine Unlearning Compliance

Arxiv

0+阅读 · 2月16日

Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion

Arxiv

0+阅读 · 2月15日

BalDRO: A Distributionally Robust Optimization based Framework for Large Language Model Unlearning

Arxiv

0+阅读 · 2月7日

Inference-time Unlearning Using Conformal Prediction

Arxiv

0+阅读 · 2月3日

Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures

Arxiv

0+阅读 · 2月3日

Statistical MIA: Rethinking Membership Inference Attack for Reliable Unlearning Auditing

Arxiv

0+阅读 · 2月1日

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols

Arxiv

0+阅读 · 1月29日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Tackling Federated Unlearning as a Parameter Estimation Problem

Arxiv

0+阅读 · 1月26日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

2+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

4+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

9+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

9+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

12+阅读 · 4月22日

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

8+阅读 · 4月22日

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

6+阅读 · 4月22日

相关VIP内容

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

大型语言模型中的数字遗忘：遗忘方法的综述

大型语言模型中的数字遗忘：遗忘方法的综述

专知会员服务

33+阅读 · 2024年4月8日

【CVPR2024】持续遗忘对于预训练视觉模型

【CVPR2024】持续遗忘对于预训练视觉模型

专知会员服务

19+阅读 · 2024年3月20日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

人工智能赋能无人机：俄乌战争（万字长文）

美军条令《海军陆战队规划流程（2026版）》

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

国外海军作战管理系统与作战训练系统

相关资讯

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

从信息论的角度来理解损失函数

从信息论的角度来理解损失函数

深度学习每日摘要

17+阅读 · 2019年4月7日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上）

夕小瑶的卖萌屋

36+阅读 · 2018年4月3日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

知识提取的一种应用，从上市公司年报中抽取因果关系

知识提取的一种应用，从上市公司年报中抽取因果关系

文因互联

10+阅读 · 2017年7月7日

相关论文

Governing AI Forgetting: Auditing for Machine Unlearning Compliance

Arxiv

0+阅读 · 2月16日

Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion

Arxiv

0+阅读 · 2月15日

BalDRO: A Distributionally Robust Optimization based Framework for Large Language Model Unlearning

Arxiv

0+阅读 · 2月7日

Inference-time Unlearning Using Conformal Prediction

Arxiv

0+阅读 · 2月3日

Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures

Arxiv

0+阅读 · 2月3日

Statistical MIA: Rethinking Membership Inference Attack for Reliable Unlearning Auditing

Arxiv

0+阅读 · 2月1日

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols

Arxiv

0+阅读 · 1月29日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Tackling Federated Unlearning as a Parameter Estimation Problem

Arxiv

0+阅读 · 1月26日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于云计算平台的下一代测序数据错误修正算法研究与实现

国家自然科学基金

2+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于WEB信息的信息错误自动检测与修复技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员