Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric - 专知论文

会员服务 ·

0

样本 · 度量 · 交互 · 路径 · 构建 ·

Toward Understanding Unlearning Difficulty: A Mechanistic Perspective and Circuit-Guided Difficulty Metric

翻译：理解遗忘难度：机制视角与电路引导的难度度量

Jiali Cheng,Ziheng Chen,Chirag Agarwal,Hadi Amiri

Machine unlearning is becoming essential for building trustworthy and compliant language models. Yet unlearning success varies considerably across individual samples: some are reliably erased, while others persist despite the same procedure. We argue that this disparity is not only a data-side phenomenon, but also reflects model-internal mechanisms that encode and protect memorized information. We study this problem from a mechanistic perspective based on model circuits--structured interaction pathways that govern how predictions are formed. We propose Circuit-guided Unlearning Difficulty (CUD), a {\em pre-unlearning} metric that assigns each sample a continuous difficulty score using circuit-level signals. Extensive experiments demonstrate that CUD reliably separates intrinsically easy and hard samples, and remains stable across unlearning methods. We identify key circuit-level patterns that reveal a mechanistic signature of difficulty: easy-to-unlearn samples are associated with shorter, shallower interactions concentrated in earlier-to-intermediate parts of the original model, whereas hard samples rely on longer and deeper pathways closer to late-stage computation. Compared to existing qualitative studies, CUD takes a first step toward a principled, fine-grained, and interpretable analysis of unlearning difficulty; and motivates the development of unlearning methods grounded in model mechanisms.

翻译：机器遗忘对于构建可信且合规的语言模型正变得至关重要。然而，不同样本间的遗忘成功率差异显著：一些样本能被可靠地擦除，而另一些则在相同流程下持续存在。我们认为，这种差异不仅是数据侧的现象，也反映了模型内部编码和保护记忆信息的机制。我们基于模型电路——即控制预测如何形成的结构化交互路径——从机制视角研究此问题。我们提出了电路引导的遗忘难度，这是一种**遗忘前**度量，它利用电路级信号为每个样本分配一个连续的难度分数。大量实验表明，CUD能可靠地区分本质上容易和困难的样本，并且在不同的遗忘方法中保持稳定。我们识别了关键的电路级模式，揭示了难度的机制特征：易于遗忘的样本与更短、更浅的交互相关，这些交互集中在原始模型的较早至中间部分；而困难样本则依赖于更接近后期计算的更长、更深的路径。与现有的定性研究相比，CUD朝着对遗忘难度进行原则性、细粒度和可解释的分析迈出了第一步，并激励了基于模型机制的遗忘方法的发展。

0

相关内容

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

专知会员服务

36+阅读 · 2022年5月8日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

克服小样本学习中灾难性遗忘方法研究

专知会员服务

51+阅读 · 2020年7月16日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

适应性记忆的认知与神经机制：生存加工和死亡提醒的双视角

国家自然科学基金

0+阅读 · 2016年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

遗忘型轻度认知障碍患者内颞叶记忆网络动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures

Arxiv

0+阅读 · 2月3日

Why Some Models Resist Unlearning: A Linear Stability Perspective

Arxiv

0+阅读 · 2月3日

Unlearning's Blind Spots: Over-Unlearning and Prototypical Relearning Attack

Arxiv

0+阅读 · 1月30日

Putting a Face to Forgetting: Continual Learning meets Mechanistic Interpretability

Arxiv

0+阅读 · 1月29日

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols

Arxiv

0+阅读 · 1月29日

Unlearning Comparator: A Visual Analytics System for Comparative Evaluation of Machine Unlearning Methods

Arxiv

0+阅读 · 1月25日

Auditing Language Model Unlearning via Information Decomposition

Arxiv

0+阅读 · 1月21日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Forgetting Similar Samples: Can Machine Unlearning Do it Better?

Arxiv

0+阅读 · 1月11日

On the limitation of evaluating machine unlearning using only a single training seed

Arxiv

0+阅读 · 2025年12月30日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

2+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

13+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

6+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

8+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

18+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

5+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

16+阅读 · 4月18日

相关VIP内容

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

大模型如何遗忘不良知识？最新《生成式人工智能中的机器遗忘》综述

专知会员服务

24+阅读 · 2024年8月1日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

【巴黎理工学院博士论文】持续学习：用重放过程解决深度神经网络中的灾难性遗忘

专知会员服务

36+阅读 · 2022年5月8日

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

如何洞晓深度学习中记忆与注意力机制？这份Deakin大学212页博士论文给您做解答

专知会员服务

68+阅读 · 2021年7月7日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

你的论文可复现么？这个视频报告《机器学习中的复现性:从理论到实践》带你做复现研究，84页ppt

专知会员服务

48+阅读 · 2020年8月8日

克服小样本学习中灾难性遗忘方法研究

专知会员服务

51+阅读 · 2020年7月16日

注意力机制介绍，Attention Mechanism

注意力机制介绍，Attention Mechanism

专知会员服务

172+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

注意力机制综述(中文版)

注意力机制综述(中文版)

专知

23+阅读 · 2021年1月26日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

【伯克利PNAS最新论文】可解释机器学习的定义、方法和应用

专知

78+阅读 · 2019年10月20日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

DeepMind 牛津大学《视觉注意力机制》，提高视觉推理能力（PPT下载）

专知

13+阅读 · 2018年9月25日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

相关论文

Rethinking Benign Relearning: Syntax as the Hidden Driver of Unlearning Failures

Arxiv

0+阅读 · 2月3日

Why Some Models Resist Unlearning: A Linear Stability Perspective

Arxiv

0+阅读 · 2月3日

Unlearning's Blind Spots: Over-Unlearning and Prototypical Relearning Attack

Arxiv

0+阅读 · 1月30日

Putting a Face to Forgetting: Continual Learning meets Mechanistic Interpretability

Arxiv

0+阅读 · 1月29日

Are We Truly Forgetting? A Critical Re-examination of Machine Unlearning Evaluation Protocols

Arxiv

0+阅读 · 1月29日

Unlearning Comparator: A Visual Analytics System for Comparative Evaluation of Machine Unlearning Methods

Arxiv

0+阅读 · 1月25日

Auditing Language Model Unlearning via Information Decomposition

Arxiv

0+阅读 · 1月21日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Forgetting Similar Samples: Can Machine Unlearning Do it Better?

Arxiv

0+阅读 · 1月11日

On the limitation of evaluating machine unlearning using only a single training seed

Arxiv

0+阅读 · 2025年12月30日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

适应性记忆的认知与神经机制：生存加工和死亡提醒的双视角

国家自然科学基金

0+阅读 · 2016年12月31日

不可忽略缺失机制下的广义矩方法和调整经验似然方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

遗忘型轻度认知障碍患者内颞叶记忆网络动态变化研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员