旋转控制遗忘：基于认知旋转空间量化与控制大语言模型的连续遗忘 (Rotation Control Unlearning: Quantifying and Controlling Continuous Unlearning for LLM with The Cognitive Rotation Space) - 专知论文

会员服务 ·

0

效用 · 损失 · 数据集 · 语言模型 · 设计 ·

Rotation Control Unlearning: Quantifying and Controlling Continuous Unlearning for LLM with The Cognitive Rotation Space

翻译：旋转控制遗忘：基于认知旋转空间量化与控制大语言模型的连续遗忘

Xiang Zhang,Kun Wei,Xu Yang,Jiahua Li,Su Yan,Cheng Deng

As Large Language Models (LLMs) become increasingly prevalent, their security vulnerabilities have already drawn attention. Machine unlearning is introduced to seek to mitigate these risks by removing the influence of undesirable data. However, existing methods not only rely on the retained dataset to preserve model utility, but also suffer from cumulative catastrophic utility loss under continuous unlearning requests. To solve this dilemma, we propose a novel method, called Rotation Control Unlearning (RCU), which leverages the rotational salience weight of RCU to quantify and control the unlearning degree in the continuous unlearning process. The skew symmetric loss is designed to construct the existence of the cognitive rotation space, where the changes of rotational angle can simulate the continuous unlearning process. Furthermore, we design an orthogonal rotation axes regularization to enforce mutually perpendicular rotation directions for continuous unlearning requests, effectively minimizing interference and addressing cumulative catastrophic utility loss. Experiments on multiple datasets confirm that our method without retained dataset achieves SOTA performance.

翻译：随着大语言模型（LLMs）的日益普及，其安全漏洞已引起广泛关注。机器遗忘技术旨在通过消除不良数据的影响来缓解这些风险。然而，现有方法不仅依赖保留数据集以维持模型效用，而且在连续遗忘请求下会遭受累积性的灾难性效用损失。为解决这一困境，我们提出了一种名为旋转控制遗忘（RCU）的新方法，该方法利用RCU的旋转显著性权重来量化与控制连续遗忘过程中的遗忘程度。通过设计斜对称损失函数，我们构建了认知旋转空间的存在性，其中旋转角度的变化能够模拟连续遗忘过程。此外，我们设计了正交旋转轴正则化方法，以强制连续遗忘请求的旋转方向相互垂直，从而有效减少干扰并解决累积性灾难性效用损失问题。在多个数据集上的实验证实，我们的方法无需保留数据集即可实现最先进的性能。

0

相关内容

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

专知会员服务

22+阅读 · 2025年6月11日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

倾转旋翼飞行器模态转换阶段非线性控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

磁性随机存储器中调控磁化反转势垒降低临界电流密度研究

国家自然科学基金

0+阅读 · 2014年12月31日

$\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality

Arxiv

0+阅读 · 2月2日

Geometric-disentangelment Unlearning

Arxiv

0+阅读 · 2月2日

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Arxiv

0+阅读 · 1月29日

Mitigating Sensitive Information Leakage in LLMs4Code through Machine Unlearning

Arxiv

0+阅读 · 1月28日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Undesirable Memorization in Large Language Models: A Survey

Arxiv

0+阅读 · 1月19日

Forgetting-MarI: LLM Unlearning via Marginal Information Regularization

Arxiv

0+阅读 · 1月17日

Towards Mitigating Excessive Forgetting in LLM Unlearning via Entanglement-Guidance with Proxy Constraint

Arxiv

0+阅读 · 1月12日

Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

大语言模型机器遗忘综述

大语言模型机器遗忘综述

专知会员服务

18+阅读 · 2025年11月2日

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

【斯坦福大学Xiang Lisa Li博士论文】控制语言模型

专知会员服务

22+阅读 · 2025年6月11日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

LLM4Science怎么做？UIUC等最新《科学大型语言模型及其在科学发现中的应用》综述

专知会员服务

35+阅读 · 2024年6月23日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

$\textbf{AGT$^{AO}$}$: Robust and Stabilized LLM Unlearning via Adversarial Gating Training with Adaptive Orthogonality

Arxiv

0+阅读 · 2月2日

Geometric-disentangelment Unlearning

Arxiv

0+阅读 · 2月2日

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Arxiv

0+阅读 · 1月29日

Mitigating Sensitive Information Leakage in LLMs4Code through Machine Unlearning

Arxiv

0+阅读 · 1月28日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Undesirable Memorization in Large Language Models: A Survey

Arxiv

0+阅读 · 1月19日

Forgetting-MarI: LLM Unlearning via Marginal Information Regularization

Arxiv

0+阅读 · 1月17日

Towards Mitigating Excessive Forgetting in LLM Unlearning via Entanglement-Guidance with Proxy Constraint

Arxiv

0+阅读 · 1月12日

Maximizing Local Entropy Where It Matters: Prefix-Aware Localized LLM Unlearning

Arxiv

0+阅读 · 1月6日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

倾转旋翼飞行器模态转换阶段非线性控制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

大数据环境下的证券市场操纵行为发现机理、模型与方法

国家自然科学基金

0+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

磁性随机存储器中调控磁化反转势垒降低临界电流密度研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员