Forgetting-MarI: LLM Unlearning via Marginal Information Regularization - 专知论文

会员服务 ·

0

遗忘学习 · 语言模型 · 正则化 · 模型性能 · 数据集 ·

Forgetting-MarI: LLM Unlearning via Marginal Information Regularization

翻译：遗忘边际信息：基于边际信息正则化的大语言模型遗忘学习

Shizhou Xu,Yuan Ni,Stefan Broecker,Thomas Strohmer

As AI models are trained on ever-expanding datasets, the ability to remove the influence of specific data from trained models has become essential for privacy protection and regulatory compliance. Unlearning addresses this challenge by selectively removing parametric knowledge from the trained models without retraining from scratch, which is critical for resource-intensive models such as Large Language Models (LLMs). Existing unlearning methods often degrade model performance by removing more information than necessary when attempting to ''forget'' specific data. We introduce Forgetting-MarI, an LLM unlearning framework that provably removes only the additional (marginal) information contributed by the data to be unlearned, while preserving the information supported by the data to be retained. By penalizing marginal information, our method yields an explicit upper bound on the unlearn dataset's residual influence in the trained models, providing provable undetectability. Extensive experiments confirm that our approach outperforms current state-of-the-art unlearning methods, delivering reliable forgetting and better preserved general model performance across diverse benchmarks. This advancement represents an important step toward making AI systems more controllable and compliant with privacy and copyright regulations without compromising their effectiveness.

翻译：随着人工智能模型在日益扩大的数据集上进行训练，从已训练模型中移除特定数据影响的能力已成为隐私保护和法规遵从的关键需求。遗忘学习通过选择性地从已训练模型中移除参数化知识来解决这一挑战，而无需从头重新训练，这对于大型语言模型等资源密集型模型尤为重要。现有遗忘方法在尝试“遗忘”特定数据时，常因移除超出必要范围的信息而导致模型性能下降。本文提出Forgetting-MarI，一种大语言模型遗忘学习框架，该方法可证明地仅移除待遗忘数据贡献的额外（边际）信息，同时保留待留存数据所支持的信息。通过惩罚边际信息，我们的方法为已训练模型中待遗忘数据集的残余影响提供了显式上界，从而实现了可证明的不可检测性。大量实验证实，我们的方法优于当前最先进的遗忘学习方法，在多样化基准测试中实现了可靠的遗忘效果和更优的通用模型性能保持。这一进展标志着在不影响AI系统效能的前提下，使其更具可控性并更符合隐私与版权法规要求的重要进步。

0

相关内容

遗忘学习

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

【CVPR2024】持续遗忘对于预训练视觉模型

【CVPR2024】持续遗忘对于预训练视觉模型

专知会员服务

19+阅读 · 2024年3月20日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

【AAAI2024】朝着通过相互演化实现有效和通用的图遗忘学习的目标前进

【AAAI2024】朝着通过相互演化实现有效和通用的图遗忘学习的目标前进

专知会员服务

24+阅读 · 2024年1月25日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

专知会员服务

36+阅读 · 2022年5月8日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

Conformal Unlearning: A New Paradigm for Unlearning in Conformal Predictors

Arxiv

0+阅读 · 2月12日

Certifying the Right to Be Forgotten: Primal-Dual Optimization for Sample and Label Unlearning in Vertical Federated Learning

Arxiv

0+阅读 · 2月11日

Inference-time Unlearning Using Conformal Prediction

Arxiv

0+阅读 · 2月3日

Why Some Models Resist Unlearning: A Linear Stability Perspective

Arxiv

0+阅读 · 2月3日

Unlearning's Blind Spots: Over-Unlearning and Prototypical Relearning Attack

Arxiv

0+阅读 · 1月30日

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols

Arxiv

0+阅读 · 1月29日

Reinforcement Unlearning via Group Relative Policy Optimization

Arxiv

0+阅读 · 1月28日

Tackling Federated Unlearning as a Parameter Estimation Problem

Arxiv

0+阅读 · 1月26日

FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning

Arxiv

0+阅读 · 1月20日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

6+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

4+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

9+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

8+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

【CVPR2024】持续遗忘对于预训练视觉模型

【CVPR2024】持续遗忘对于预训练视觉模型

专知会员服务

19+阅读 · 2024年3月20日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

【AAAI2024】朝着通过相互演化实现有效和通用的图遗忘学习的目标前进

【AAAI2024】朝着通过相互演化实现有效和通用的图遗忘学习的目标前进

专知会员服务

24+阅读 · 2024年1月25日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

专知会员服务

36+阅读 · 2022年5月8日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

联邦学习安全与隐私保护研究综述

联邦学习安全与隐私保护研究综述

专知

12+阅读 · 2020年8月7日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

【Google AI-Luong】无标记数据学习, 83ppt, 一致性学习与自监督学习是什么？

专知

12+阅读 · 2020年3月5日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

相关论文

Conformal Unlearning: A New Paradigm for Unlearning in Conformal Predictors

Arxiv

0+阅读 · 2月12日

Certifying the Right to Be Forgotten: Primal-Dual Optimization for Sample and Label Unlearning in Vertical Federated Learning

Arxiv

0+阅读 · 2月11日

Inference-time Unlearning Using Conformal Prediction

Arxiv

0+阅读 · 2月3日

Why Some Models Resist Unlearning: A Linear Stability Perspective

Arxiv

0+阅读 · 2月3日

Unlearning's Blind Spots: Over-Unlearning and Prototypical Relearning Attack

Arxiv

0+阅读 · 1月30日

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols

Arxiv

0+阅读 · 1月29日

Reinforcement Unlearning via Group Relative Policy Optimization

Arxiv

0+阅读 · 1月28日

Tackling Federated Unlearning as a Parameter Estimation Problem

Arxiv

0+阅读 · 1月26日

FG-OrIU: Towards Better Forgetting via Feature-Gradient Orthogonality for Incremental Unlearning

Arxiv

0+阅读 · 1月20日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员