As Large Language Models (LLMs) become increasingly prevalent, their security vulnerabilities have already drawn attention. Machine unlearning is introduced to seek to mitigate these risks by removing the influence of undesirable data. However, existing methods not only rely on the retained dataset to preserve model utility, but also suffer from cumulative catastrophic utility loss under continuous unlearning requests. To solve this dilemma, we propose a novel method, called Rotation Control Unlearning (RCU), which leverages the rotational salience weight of RCU to quantify and control the unlearning degree in the continuous unlearning process. The skew symmetric loss is designed to construct the existence of the cognitive rotation space, where the changes of rotational angle can simulate the continuous unlearning process. Furthermore, we design an orthogonal rotation axes regularization to enforce mutually perpendicular rotation directions for continuous unlearning requests, effectively minimizing interference and addressing cumulative catastrophic utility loss. Experiments on multiple datasets confirm that our method without retained dataset achieves SOTA performance.


翻译:随着大语言模型(LLMs)的日益普及,其安全漏洞已引起广泛关注。机器遗忘技术旨在通过消除不良数据的影响来缓解这些风险。然而,现有方法不仅依赖保留数据集以维持模型效用,而且在连续遗忘请求下会遭受累积性的灾难性效用损失。为解决这一困境,我们提出了一种名为旋转控制遗忘(RCU)的新方法,该方法利用RCU的旋转显著性权重来量化与控制连续遗忘过程中的遗忘程度。通过设计斜对称损失函数,我们构建了认知旋转空间的存在性,其中旋转角度的变化能够模拟连续遗忘过程。此外,我们设计了正交旋转轴正则化方法,以强制连续遗忘请求的旋转方向相互垂直,从而有效减少干扰并解决累积性灾难性效用损失问题。在多个数据集上的实验证实,我们的方法无需保留数据集即可实现最先进的性能。

0
下载
关闭预览

相关内容

大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
深度学习的下一步:Transformer和注意力机制
云头条
56+阅读 · 2019年9月14日
深度学习中的注意力机制
CSDN大数据
24+阅读 · 2017年11月2日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
【斯坦福大学Xiang Lisa Li博士论文】控制语言模型
专知会员服务
22+阅读 · 2025年6月11日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员