Machine unlearning aims to unlearn specified training data (e.g. sensitive or copyrighted material). A prominent approach is to fine-tune an existing model with an unlearning loss that retains overall utility. The space of suitable unlearning loss functions is vast, making the search for an optimal loss function daunting. Additionally, there might not even exist a universally optimal loss function: differences in the structure and overlap of the forget and retain data can cause a loss to work well in one setting but over-unlearn or under-unlearn in another. Our approach EvoMU tackles these two challenges simultaneously. An evolutionary search procedure automatically finds task-specific losses in the vast space of possible unlearning loss functions. This allows us to find dataset-specific losses that match or outperform existing losses from the literature, without the need for a human-in-the-loop. This work is therefore an instance of automatic scientific discovery, a.k.a. an AI co-scientist. In contrast to previous AI co-scientist works, we do so on a budget: We achieve SotA results using a small 4B parameter model (Qwen3-4B-Thinking), showing the potential of AI co-scientists with limited computational resources. Our experimental evaluation shows that we surpass previous loss-based unlearning formulations on TOFU-5%, TOFU-10%, MUSE and WMDP by synthesizing novel unlearning losses. Our code is available at https://github.com/Batorskq/EvoMU.


翻译:机器遗忘旨在从模型中移除特定训练数据(例如敏感或受版权保护的材料)。一种主流方法是通过设计遗忘损失函数对现有模型进行微调,以保持模型的整体效用。合适的遗忘损失函数空间极为庞大,这使得寻找最优损失函数变得异常困难。此外,可能并不存在一个普遍最优的损失函数:遗忘数据与保留数据的结构及重叠差异可能导致某个损失函数在一种场景下表现良好,却在另一种场景下出现过度遗忘或遗忘不足的问题。我们的方法EvoMU同时应对了这两项挑战。通过进化搜索程序,我们能在广阔的遗忘损失函数空间中自动发现针对特定任务的损失函数。这使得我们能够找到针对特定数据集的损失函数,其性能达到或超越文献中已有的损失函数,而无需人工干预。因此,本研究是自动科学发现(亦称AI协科学家)的一个实例。与以往的AI协科学家研究不同,我们在有限计算资源下实现了这一目标:我们使用一个仅含40亿参数的小型模型(Qwen3-4B-Thinking)取得了最先进的结果,展示了计算资源受限条件下AI协科学家的潜力。实验评估表明,通过合成新颖的遗忘损失函数,我们在TOFU-5%、TOFU-10%、MUSE和WMDP数据集上超越了以往基于损失的遗忘方法。代码已开源:https://github.com/Batorskq/EvoMU。

0
下载
关闭预览

相关内容

大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
机器遗忘综述:技术与新出现的隐私风险
专知会员服务
24+阅读 · 2024年6月16日
机器遗忘:分类、指标、应用、挑战与展望
专知会员服务
36+阅读 · 2024年3月16日
专知会员服务
21+阅读 · 2021年8月9日
机器也能学会如何学习?——元学习介绍
AINLP
19+阅读 · 2019年9月22日
8月最新-《可解释机器学习-Christoph Molnar》-新书分享
深度学习与NLP
10+阅读 · 2019年8月12日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员