ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models - 专知论文

会员服务 ·

0

嵌入 · 困惑度 · GitHub · 语言模型 · 启发式 ·

ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models

翻译：ForgetMark：通过目标性遗忘在语言模型中嵌入隐蔽指纹

Zhenhua Xu,Haobo Zhang,Zhebo Wang,Qichen Liu,Haitao Xu,Wenpeng Xing,Meng Han

from arxiv, Accepted by ICASSP2026

Existing invasive (backdoor) fingerprints suffer from high-perplexity triggers that are easily filtered, fixed response patterns exposed by heuristic detectors, and spurious activations on benign inputs. We introduce \textsc{ForgetMark}, a stealthy fingerprinting framework that encodes provenance via targeted unlearning. It builds a compact, human-readable key--value set with an assistant model and predictive-entropy ranking, then trains lightweight LoRA adapters to suppress the original values on their keys while preserving general capabilities. Ownership is verified under black/gray-box access by aggregating likelihood and semantic evidence into a fingerprint success rate. By relying on probabilistic forgetting traces rather than fixed trigger--response patterns, \textsc{ForgetMark} avoids high-perplexity triggers, reduces detectability, and lowers false triggers. Across diverse architectures and settings, it achieves 100\% ownership verification on fingerprinted models while maintaining standard performance, surpasses backdoor baselines in stealthiness and robustness to model merging, and remains effective under moderate incremental fine-tuning. Our code and data are available at \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}.

翻译：现有的侵入式（后门）指纹存在高困惑度触发词易被过滤、启发式检测器暴露固定响应模式以及对良性输入产生虚假激活等问题。本文提出 \textsc{ForgetMark}，一种通过目标性遗忘编码来源的隐蔽指纹框架。该框架利用辅助模型和预测熵排序构建紧凑、人类可读的键-值对集合，随后训练轻量级 LoRA 适配器以在保留通用能力的同时抑制原始键对应的值。通过将似然证据与语义证据聚合为指纹成功率，可在黑盒/灰盒访问场景下完成所有权验证。\textsc{ForgetMark} 依赖概率性遗忘痕迹而非固定的触发-响应模式，从而避免了高困惑度触发词，降低了可检测性与误触发率。在多样化架构与设置中，该方法在指纹模型上实现了 100\% 的所有权验证率且保持标准性能，在隐蔽性和模型合并鲁棒性方面超越后门基线，并在适度增量微调下保持有效性。代码与数据公开于 \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}。

0

相关内容

DeepSeek开源大模型「记忆」模块，D梁文锋署名新论文，下一代稀疏模型提前剧透

DeepSeek开源大模型「记忆」模块，D梁文锋署名新论文，下一代稀疏模型提前剧透

专知会员服务

18+阅读 · 1月13日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

30+阅读 · 2025年4月12日

【CVPR2024】持续遗忘对于预训练视觉模型

【CVPR2024】持续遗忘对于预训练视觉模型

专知会员服务

19+阅读 · 2024年3月20日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

专知会员服务

27+阅读 · 2022年10月7日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

专知会员服务

42+阅读 · 2019年11月23日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

专知

13+阅读 · 2017年12月11日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

基于氘、氟掺杂氧化锌薄膜晶体管的透明指纹识别系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

LLM Fingerprinting via Semantically Conditioned Watermarks

Arxiv

0+阅读 · 2月19日

SATversary: Adversarial Attacks and Defenses for Satellite Fingerprinting

Arxiv

0+阅读 · 2月12日

Generalizable and Interpretable RF Fingerprinting with Shapelet-Enhanced Large Language Models

Arxiv

0+阅读 · 2月3日

FNF: Functional Network Fingerprint for Large Language Models

Arxiv

0+阅读 · 1月30日

From Construction to Injection: Edit-Based Fingerprints for Large Language Models

Arxiv

0+阅读 · 1月21日

Smudged Fingerprints: A Systematic Evaluation of the Robustness of AI Image Fingerprints

Arxiv

0+阅读 · 1月21日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月21日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月19日

NiMark: A Non-intrusive Watermarking Framework against Screen-shooting Attacks

Arxiv

0+阅读 · 1月17日

ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

5+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

3+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

2+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

6+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

8+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

6+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

2+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

2+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

2+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

15+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

3+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

4+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

4+阅读 · 4月23日

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

7+阅读 · 4月23日

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

3+阅读 · 4月23日

相关VIP内容

DeepSeek开源大模型「记忆」模块，D梁文锋署名新论文，下一代稀疏模型提前剧透

DeepSeek开源大模型「记忆」模块，D梁文锋署名新论文，下一代稀疏模型提前剧透

专知会员服务

18+阅读 · 1月13日

基于深度学习的伪装目标检测研究进展

基于深度学习的伪装目标检测研究进展

专知会员服务

30+阅读 · 2025年4月12日

【CVPR2024】持续遗忘对于预训练视觉模型

【CVPR2024】持续遗忘对于预训练视觉模型

专知会员服务

19+阅读 · 2024年3月20日

机器遗忘：分类、指标、应用、挑战与展望

机器遗忘：分类、指标、应用、挑战与展望

专知会员服务

36+阅读 · 2024年3月16日

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

什么是Machine Unlearning?悉尼科大等最新《机器遗忘》综述，36页pdf详述其技术体系

专知会员服务

66+阅读 · 2023年6月7日

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

《用对抗样本防御基于深度学习的视频指纹攻击》美海军研究生院2022最新60页论文

专知会员服务

27+阅读 · 2022年10月7日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

【CVPR2020】通过潦草注释的弱监督显著目标检测，Weakly-Supervised Salient Object Detection via Scribble Annotations

专知会员服务

39+阅读 · 2020年3月19日

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

【AAAI2020】Context-Transformer:上下文转换器:解决对象混淆的小样本检测，Context-Transformer: Tackling Object Confusion for Few-Shot Detection

专知会员服务

51+阅读 · 2020年3月17日

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

【显著性目标检测| 2019最新综述】深度学习时代的显著目标检测（Salient Object Detection in the Deep Learning Era: An In-Depth Survey），附PDF

专知会员服务

42+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

战场之外的较量：美伊冲突中的认知战与心理博弈

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

以色列军事技术对美国军力发展的持续性赋能

俄乌战争中乌克兰防空能力演变与见解（中文版）

相关资讯

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

开源OCR文本检测器，基于TextBoxes++和RetinaNet

开源OCR文本检测器，基于TextBoxes++和RetinaNet

专知

11+阅读 · 2019年11月15日

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

成熟的目标检测，也该自己学习数据增强策略达到SOTA了

机器之心

17+阅读 · 2019年6月28日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

放弃手工标记数据，斯坦福大学开发弱监督编程范式Snorkel

新智元

14+阅读 · 2019年3月15日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

【Keras教程】用Encoder-Decoder模型自动撰写文本摘要

专知

13+阅读 · 2017年12月11日

原创 | Attention Modeling for Targeted Sentiment

原创 | Attention Modeling for Targeted Sentiment

黑龙江大学自然语言处理实验室

25+阅读 · 2017年11月5日

相关论文

LLM Fingerprinting via Semantically Conditioned Watermarks

Arxiv

0+阅读 · 2月19日

SATversary: Adversarial Attacks and Defenses for Satellite Fingerprinting

Arxiv

0+阅读 · 2月12日

Generalizable and Interpretable RF Fingerprinting with Shapelet-Enhanced Large Language Models

Arxiv

0+阅读 · 2月3日

FNF: Functional Network Fingerprint for Large Language Models

Arxiv

0+阅读 · 1月30日

From Construction to Injection: Edit-Based Fingerprints for Large Language Models

Arxiv

0+阅读 · 1月21日

Smudged Fingerprints: A Systematic Evaluation of the Robustness of AI Image Fingerprints

Arxiv

0+阅读 · 1月21日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月21日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月19日

NiMark: A Non-intrusive Watermarking Framework against Screen-shooting Attacks

Arxiv

0+阅读 · 1月17日

ForgetMark: Stealthy Fingerprint Embedding via Targeted Unlearning in Language Models

Arxiv

0+阅读 · 1月13日

相关基金

基于氘、氟掺杂氧化锌薄膜晶体管的透明指纹识别系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

多标记文本数据流分类方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通讯匿名隐通道系统模型与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员