LLM unlearning has emerged as a cost-effective alternative to full retraining for removing hazardous knowledge from pretrained models while preserving general utility. Recent RL-based methods such as RULE reformulate unlearning as learning a refusal behavior, but their on-policy optimization repeatedly samples from the same forget and retain/boundary prompts throughout training. We identify a critical inefficiency in this process: easy cases quickly converge and provide little useful gradient signal, while hard cases near the forget/retain boundary continue to produce low-reward rollouts that are discarded after a single use. To address this issue, we propose ReRULE, an off-policy replay enhancement for reinforcement unlearning. ReRULE stores low-reward hard-case rollout groups in a replay buffer during early GRPO training and reuses them in later stages through importance-sampled off-policy updates, redirecting computation toward boundary cases that still require learning. Theoretically, we show that ReRULE yields a tighter hard-case convergence bound than pure on-policy RULE. Empirically, ReRULE improves MUSE-Books Retain Quality from 46.3 to 56.2 while adding only 5--11% training time across benchmarks. Its limited improvement on the simpler TOFU setting further supports the intended conditional behavior: replay is most beneficial when the hard/easy disparity is pronounced.


翻译:大语言模型遗忘作为一种经济高效的替代方案,可通过移除预训练模型中的有害知识同时保持通用能力,避免完全重新训练的成本。近年来基于强化学习的方法(如RULE)将遗忘任务重构为学习拒绝行为,但其在策略优化过程中始终从相同的遗忘/保留边界提示中重复采样。我们识别出该过程的关键效率缺陷:简单案例快速收敛后几乎不提供有效梯度信号,而处于遗忘/保留边界附近的困难案例虽持续产生低奖励样本,但这些样本在单次使用后即被丢弃。针对此问题,我们提出ReRULE——面向强化遗忘的离策略重放增强方法。该方法在GRPO训练早期将低奖励困难案例样本组存入重放缓冲区,并通过重要性采样离策略更新在后阶段复用,将计算资源重新导向仍需学习的边界案例。理论上证明ReRULE比纯在策略RULE具有更紧的困难案例收敛界。实验表明,ReRULE将MUSE-Books保留质量从46.3提升至56.2,且在各基准测试中仅增加5-11%训练时间。在较简单的TOFU设置中改进幅度有限,进一步验证了其条件性行为机制:当难易样本差异显著时重放效益最大。

0
下载
关闭预览

相关内容

【ICML2025】用于可扩展持续强化学习的自组合策略
专知会员服务
12+阅读 · 2025年7月3日
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
【MIT博士论文】数据高效强化学习,176页pdf
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
40+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员