From Logits to Latents: Contrastive Representation Shaping for LLM Unlearning - 专知论文

会员服务 ·

0

遗忘学习 · 大语言模型 · 近似 · 知识 · EG ·

From Logits to Latents: Contrastive Representation Shaping for LLM Unlearning

翻译：从Logits到Latents：基于对比表征整形的LLM遗忘学习

Haoran Tang,Rajiv Khanna

Most LLM unlearning methods aim to approximate retrain-from-scratch behaviors with minimal distribution shift, often via alignment-style objectives defined in the prediction space. While effective at reducing forgotten content generation, such approaches may act as suppression: forgotten concepts can persist in representations and remain entangled with retained knowledge. We introduce CLReg, a contrastive representation regularizer that identifies forget features while pushing them away from retain features, explicitly reducing forget-retain interference with minimal shifts on retain features. We provide first theoretical insights that relate representation shaping to entanglement reduction. Across unlearning benchmarks and LLMs of different sizes, CLReg decreases forget-retain representation entanglement that facilitates mainstream unlearning methods without positing extra privacy risks, inspiring future work that reshapes the representation space to remove forget concepts.

翻译：大多数LLM遗忘学习方法旨在以最小的分布偏移近似从头开始训练的行为，通常通过在预测空间中定义的类对齐目标实现。尽管这些方法能有效减少被遗忘内容的生成，但其作用可能类似于抑制：被遗忘的概念仍可能持续存在于表征中，并与保留知识保持纠缠。我们提出了CLReg，一种对比表征正则化器，它能够识别遗忘特征，同时将其推离保留特征，从而在最小化保留特征偏移的前提下，显式减少遗忘-保留干扰。我们首次提供了将表征整形与纠缠减少相联系的理论见解。在不同规模的遗忘学习基准测试和LLMs中，CLReg降低了遗忘-保留表征纠缠，这有助于主流遗忘学习方法，且不会引入额外的隐私风险，为未来通过重塑表征空间来移除遗忘概念的研究提供了启示。

0

相关内容

遗忘学习

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

38+阅读 · 2025年9月23日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICLR2025】通过自适应对比学习优化大规模语言模型的知识

【ICLR2025】通过自适应对比学习优化大规模语言模型的知识

专知会员服务

18+阅读 · 2025年2月22日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【综述】持续学习与预训练模型综述

【综述】持续学习与预训练模型综述

专知会员服务

54+阅读 · 2024年1月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

对比学习（Contrastive Learning）相关进展梳理

对比学习（Contrastive Learning）相关进展梳理

PaperWeekly

11+阅读 · 2020年5月12日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

Forget Forgetting: Continual Learning in a World of Abundant Memory

Arxiv

0+阅读 · 2月18日

Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion

Arxiv

0+阅读 · 2月15日

Quantization-Robust LLM Unlearning via Low-Rank Adaptation

Arxiv

0+阅读 · 2月13日

Conformal Unlearning: A New Paradigm for Unlearning in Conformal Predictors

Arxiv

0+阅读 · 2月11日

Contrastive Concept-Tree Search for LLM-Assisted Algorithm Discovery

Arxiv

0+阅读 · 2月3日

Geometric-disentangelment Unlearning

Arxiv

0+阅读 · 2月2日

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Arxiv

0+阅读 · 1月29日

LATTLE: LLM Attention Transplant for Transfer Learning of Tabular Data Across Disparate Domains

Arxiv

0+阅读 · 1月23日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Learn Before Represent: Bridging Generative and Contrastive Learning for Domain-Specific LLM Embeddings

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

大语言模型

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

7+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

38+阅读 · 2025年9月23日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICLR2025】通过自适应对比学习优化大规模语言模型的知识

【ICLR2025】通过自适应对比学习优化大规模语言模型的知识

专知会员服务

18+阅读 · 2025年2月22日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【综述】持续学习与预训练模型综述

【综述】持续学习与预训练模型综述

专知会员服务

54+阅读 · 2024年1月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

深度学习遗忘如何克服？马里兰大学等最新《深度学习遗忘》全面综述，概述大模型和持续学习上的遗忘

专知会员服务

56+阅读 · 2023年7月22日

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

GNN 如何遗忘学习？哈佛ICLR2023《图神经网络的通用遗忘学习策略》

专知会员服务

29+阅读 · 2023年1月23日

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

【MIla】一种意识启发规划的基于模型强化学习，A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning

专知会员服务

24+阅读 · 2022年3月19日

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

【AAAI2021】克服图神经网络灾难性遗忘，Overcoming Catastrophic Forgetting in GNN

专知会员服务

18+阅读 · 2020年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

【ICLR2021】基于返回的对比表征学习在强化学习中的应用

专知

13+阅读 · 2021年2月24日

对比学习（Contrastive Learning）相关进展梳理

对比学习（Contrastive Learning）相关进展梳理

PaperWeekly

11+阅读 · 2020年5月12日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

里昂大学博士学位论文-图像分类中的迁移学习

里昂大学博士学位论文-图像分类中的迁移学习

专知

12+阅读 · 2019年4月10日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

相关论文

Forget Forgetting: Continual Learning in a World of Abundant Memory

Arxiv

0+阅读 · 2月18日

Critic-Guided Reinforcement Unlearning in Text-to-Image Diffusion

Arxiv

0+阅读 · 2月15日

Quantization-Robust LLM Unlearning via Low-Rank Adaptation

Arxiv

0+阅读 · 2月13日

Conformal Unlearning: A New Paradigm for Unlearning in Conformal Predictors

Arxiv

0+阅读 · 2月11日

Contrastive Concept-Tree Search for LLM-Assisted Algorithm Discovery

Arxiv

0+阅读 · 2月3日

Geometric-disentangelment Unlearning

Arxiv

0+阅读 · 2月2日

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

Arxiv

0+阅读 · 1月29日

LATTLE: LLM Attention Transplant for Transfer Learning of Tabular Data Across Disparate Domains

Arxiv

0+阅读 · 1月23日

Unlearning in LLMs: Methods, Evaluation, and Open Challenges

Arxiv

0+阅读 · 1月19日

Learn Before Represent: Bridging Generative and Contrastive Learning for Domain-Specific LLM Embeddings

Arxiv

0+阅读 · 1月16日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于记忆的不变图像特征学习方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

学习与记忆的神经动力学研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员