Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs - 专知论文

会员服务 ·

0

微调 · 掩码 · 语言模型 · 提取 · 大语言模型 ·

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

翻译：随机掩码微调：一种缓解大型语言模型中个人身份信息记忆的高效方法

Kunj Joshi,David A. Smith

The current literature on memorization in Natural Language Models, especially Large Language Models (LLMs), poses severe security and privacy risks, as models tend to memorize personally identifying information (PIIs) from training data. We introduce Randomized Masked Fine-Tuning (RMFT), a novel privacy-preserving fine-tuning technique that reduces PII memorization while minimizing performance impact. Using the Enron Email Dataset, we demonstrate that RMFT achieves an 80.81% reduction in Total Extraction Rate and 80.17% reduction in Seen Extraction Rate compared to baseline fine-tuning, outperforming deduplication methods while maintaining only a 5.73% increase in perplexity. We present MaxTER, a Pareto-optimal evaluation framework for assessing privacy-utility tradeoffs, and show the performance of RMFT vs Deduplication by Area Under The Response Curve (AURC) metric.

翻译：当前关于自然语言模型（特别是大型语言模型）记忆行为的研究揭示了严重的安全与隐私风险，因为模型倾向于从训练数据中记忆个人身份信息。本文提出随机掩码微调——一种新颖的隐私保护微调技术，该技术能在最小化性能影响的前提下有效降低PII记忆。基于安然电子邮件数据集的实验表明，与基线微调相比，RMFT实现了总提取率降低80.81%、已见提取率降低80.17%，其效果优于去重方法，且困惑度仅增加5.73%。我们提出MaxTER这一帕累托最优评估框架用于量化隐私-效用权衡，并通过响应曲线下面积指标展示了RMFT与去重方法的性能对比。

0

相关内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

15+阅读 · 3月14日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

专知会员服务

12+阅读 · 2025年2月11日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

专知会员服务

50+阅读 · 2023年11月21日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【推荐论文】随机加权神经网络中隐藏着什么? （What’s Hidden in a Randomly Weighted Neural Network?），Vivek Ramanujan、Mitchell Wortsman、Aniruddha Kembhavi

【推荐论文】随机加权神经网络中隐藏着什么? （What’s Hidden in a Randomly Weighted Neural Network?），Vivek Ramanujan、Mitchell Wortsman、Aniruddha Kembhavi

专知会员服务

10+阅读 · 2019年12月5日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

通信信号中的隐蔽信息传输机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Arxiv

0+阅读 · 3月16日

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

Arxiv

0+阅读 · 3月13日

Lambda-randomization: multi-dimensional randomized response made easy

Arxiv

0+阅读 · 3月5日

PATCH: Mitigating PII Leakage in Language Models with Privacy-Aware Targeted Circuit PatcHing

Arxiv

0+阅读 · 2月26日

Discovering Universal Activation Directions for PII Leakage in Language Models

Arxiv

0+阅读 · 2月19日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink

Arxiv

0+阅读 · 2月11日

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

Arxiv

0+阅读 · 2月9日

Diffusion-Inspired Masked Fine-Tuning for Knowledge Injection in Autoregressive LLMs

Arxiv

0+阅读 · 2月9日

Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models

Arxiv

0+阅读 · 2月9日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

2+阅读 · 今天15:00

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

2+阅读 · 今天14:54

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

1+阅读 · 今天14:49

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

1+阅读 · 今天14:44

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

2+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

6+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

4+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

6+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

4+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

4+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

12+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

13+阅读 · 4月19日

相关VIP内容

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

管理 LLM 智能体中的演进式记忆：风险、机理及稳定性与安全性受控记忆（SSGM）框架

专知会员服务

15+阅读 · 3月14日

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

【ICML2025】Proxy-FDA：基于代理的特征分布对齐方法，用于无遗忘地微调视觉基础模型

专知会员服务

9+阅读 · 2025年6月3日

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

【ICLR2025】SAMREFINER：驯化“Segment Anything Model”进行通用掩码优化

专知会员服务

12+阅读 · 2025年2月11日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

Nature Machine Intelligence | 大规模预训练语言模型的参数高效微调

专知会员服务

50+阅读 · 2023年11月21日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【推荐论文】随机加权神经网络中隐藏着什么? （What’s Hidden in a Randomly Weighted Neural Network?），Vivek Ramanujan、Mitchell Wortsman、Aniruddha Kembhavi

【推荐论文】随机加权神经网络中隐藏着什么? （What’s Hidden in a Randomly Weighted Neural Network?），Vivek Ramanujan、Mitchell Wortsman、Aniruddha Kembhavi

专知会员服务

10+阅读 · 2019年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

FAGAN：完全注意力机制（Full Attention）GAN，Self-attention+GAN

专知

32+阅读 · 2018年8月14日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

【学界】谷歌大脑提出自动数据增强方法AutoAugment：可迁移至不同数据集

GAN生成式对抗网络

11+阅读 · 2018年6月5日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

自然语言处理中的自注意力机制（Self-Attention Mechanism）

自然语言处理中的自注意力机制（Self-Attention Mechanism）

PaperWeekly

22+阅读 · 2018年3月28日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

深度学习中的注意力机制

深度学习中的注意力机制

CSDN大数据

24+阅读 · 2017年11月2日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Informationally Compressive Anonymization: Non-Degrading Sensitive Input Protection for Privacy-Preserving Supervised Machine Learning

Arxiv

0+阅读 · 3月16日

Neuron-Aware Data Selection In Instruction Tuning For Large Language Models

Arxiv

0+阅读 · 3月13日

Lambda-randomization: multi-dimensional randomized response made easy

Arxiv

0+阅读 · 3月5日

PATCH: Mitigating PII Leakage in Language Models with Privacy-Aware Targeted Circuit PatcHing

Arxiv

0+阅读 · 2月26日

Discovering Universal Activation Directions for PII Leakage in Language Models

Arxiv

0+阅读 · 2月19日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

Surgery: Mitigating Harmful Fine-Tuning for Large Language Models via Attention Sink

Arxiv

0+阅读 · 2月11日

Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

Arxiv

0+阅读 · 2月9日

Diffusion-Inspired Masked Fine-Tuning for Knowledge Injection in Autoregressive LLMs

Arxiv

0+阅读 · 2月9日

Revisiting Privacy, Utility, and Efficiency Trade-offs when Fine-Tuning Large Language Models

Arxiv

0+阅读 · 2月9日

相关基金

面向遮挡条件下的人脸识别方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

满足差分隐私的频繁模式挖掘研究

国家自然科学基金

2+阅读 · 2015年12月31日

通信信号中的隐蔽信息传输机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

彩色图像的高保真可逆信息隐藏算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员