Geometric-disentangelment Unlearning - 专知论文

会员服务 ·

0

遗忘学习 · 知识 · 不变 · 梯度 · 大语言模型 ·

Geometric-disentangelment Unlearning

翻译：几何解缠遗忘学习

Duo Zhou,Yuji Zhang,Tianxin Wei,Ruizhong Qiu,Ke Yang,Xiao Lin,Cheng Qian,Jingrui He,Hanghang Tong,Heng Ji,Huan Zhang

from arxiv, 26 Pages

Large language models (LLMs) can internalize private or harmful content, motivating unlearning that removes a forget set while preserving retaining knowledge. However, forgetting updates often cause collateral degradation on retaining knowledge, creating a persistent trade-off. Existing LLM unlearning methods are often heuristic, and other theoretical approaches rely on offline feature constructions that do not capture update-time forget-retain interaction in LLMs. To address this limitation, we aim to develop an LLM unlearning method that reduces the forget-retain trade-off with theoretical guarantees. We take a first-principles view by formalizing "no side effects" as local retain invariance under small parameter updates, and prove an equivalence under optimizer-induced geometry: the retain loss is locally invariant if and only if the update direction is orthogonal to the subspace spanned by retain gradients. Based on the insight, we propose Geometric-disentanglement Unlearning (GU), a lightweight and theoretically grounded projection that can be plug-and-play to existing gradient-based unlearning methods to mitigate forget-retain side effects. Experiments on TOFU, MUSE, and WMDP-cyber show that GU strengthens forgetting while reducing retain drift. When added to SimNPO, it achieves up to 62\% improved forgetting Extraction Strength (ES) and 31\% higher retain ES. We open-sourced our code in https://github.com/Lemutisme/Geometric-Unlearning.

翻译：大型语言模型（LLMs）可能内化私有或有害内容，这推动了遗忘学习的发展，其目标是在移除遗忘集的同时保留既有知识。然而，遗忘更新常常导致保留知识的附带退化，形成持续的权衡。现有的LLM遗忘方法通常是启发式的，而其他理论方法依赖于离线特征构建，无法捕捉LLMs更新时遗忘与保留之间的相互作用。为应对这一局限，我们旨在开发一种具有理论保证的LLM遗忘方法，以减少遗忘与保留之间的权衡。我们从第一性原理出发，将“无副作用”形式化为小参数更新下的局部保留不变性，并在优化器诱导的几何结构下证明了一个等价关系：当且仅当更新方向与保留梯度张成的子空间正交时，保留损失在局部保持不变。基于这一洞见，我们提出了几何解缠遗忘学习（GU），这是一种轻量级且理论严谨的投影方法，可作为即插即用模块集成到现有的基于梯度的遗忘学习方法中，以减轻遗忘与保留的副作用。在TOFU、MUSE和WMDP-cyber数据集上的实验表明，GU在强化遗忘的同时减少了保留漂移。当将其与SimNPO结合使用时，遗忘提取强度（ES）最高可提升62%，保留ES提高31%。我们的代码已在https://github.com/Lemutisme/Geometric-Unlearning开源。

0

相关内容

遗忘学习

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

专知会员服务

142+阅读 · 2022年10月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

专知

13+阅读 · 2020年7月16日

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

专知

17+阅读 · 2020年7月10日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状记忆凝胶相变-扩散-应力耦合大变形本构关系及其实验验证与数值实现

国家自然科学基金

0+阅读 · 2014年12月31日

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Arxiv

0+阅读 · 3月9日

KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models

Arxiv

0+阅读 · 2月24日

Anatomy of Unlearning: The Dual Impact of Fact Salience and Model Fine-Tuning

Arxiv

0+阅读 · 2月23日

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Arxiv

0+阅读 · 2月14日

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Arxiv

0+阅读 · 2月11日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Remembering Unequally: Global and Disciplinary Bias in LLM Reconstruction of Scholarly Coauthor Lists

Arxiv

0+阅读 · 2月5日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

Context-Free Synthetic Data Mitigates Forgetting

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

2+阅读 · 52分钟前

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

0+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

0+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

1+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

1+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

1+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

3+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

7+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

23+阅读 · 2025年10月22日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

如何编辑大模型中的知识？浙大等最新《大型语言模型知识编辑》全面综述

专知会员服务

72+阅读 · 2024年1月3日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

大模型幻觉如何克服？哈工大等最新《大型语言模型中的幻觉现象》综述，详述原理、分类、挑战与未解之谜

专知会员服务

82+阅读 · 2023年11月12日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

专知会员服务

142+阅读 · 2022年10月19日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

最新《几何深度学习》教程，100页ppt，Geometric Deep Learning

专知

13+阅读 · 2020年7月16日

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

【MLSS2020】最新《几何深度学习》教程，帝国理工学院Michael Bronstein教授，166页ppt

专知

17+阅读 · 2020年7月10日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

相关论文

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

Arxiv

0+阅读 · 3月11日

Gradually Excavating External Knowledge for Implicit Complex Question Answering

Arxiv

0+阅读 · 3月9日

KUDA: Knowledge Unlearning by Deviating Representation for Large Language Models

Arxiv

0+阅读 · 2月24日

Anatomy of Unlearning: The Dual Impact of Fact Salience and Model Fine-Tuning

Arxiv

0+阅读 · 2月23日

GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Arxiv

0+阅读 · 2月14日

When to Memorize and When to Stop: Gated Recurrent Memory for Long-Context Reasoning

Arxiv

0+阅读 · 2月11日

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Remembering Unequally: Global and Disciplinary Bias in LLM Reconstruction of Scholarly Coauthor Lists

Arxiv

0+阅读 · 2月5日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

Context-Free Synthetic Data Mitigates Forgetting

Arxiv

0+阅读 · 2月2日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

一些几何发展方程中的渐近分析研究

国家自然科学基金

0+阅读 · 2014年12月31日

形状记忆凝胶相变-扩散-应力耦合大变形本构关系及其实验验证与数值实现

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员