Existing invasive (backdoor) fingerprints suffer from high-perplexity triggers that are easily filtered, fixed response patterns exposed by heuristic detectors, and spurious activations on benign inputs. We introduce \textsc{ForgetMark}, a stealthy fingerprinting framework that encodes provenance via targeted unlearning. It builds a compact, human-readable key--value set with an assistant model and predictive-entropy ranking, then trains lightweight LoRA adapters to suppress the original values on their keys while preserving general capabilities. Ownership is verified under black/gray-box access by aggregating likelihood and semantic evidence into a fingerprint success rate. By relying on probabilistic forgetting traces rather than fixed trigger--response patterns, \textsc{ForgetMark} avoids high-perplexity triggers, reduces detectability, and lowers false triggers. Across diverse architectures and settings, it achieves 100\% ownership verification on fingerprinted models while maintaining standard performance, surpasses backdoor baselines in stealthiness and robustness to model merging, and remains effective under moderate incremental fine-tuning. Our code and data are available at \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}.


翻译:现有的侵入式(后门)指纹存在高困惑度触发词易被过滤、启发式检测器暴露固定响应模式以及对良性输入产生虚假激活等问题。本文提出 \textsc{ForgetMark},一种通过目标性遗忘编码来源的隐蔽指纹框架。该框架利用辅助模型和预测熵排序构建紧凑、人类可读的键-值对集合,随后训练轻量级 LoRA 适配器以在保留通用能力的同时抑制原始键对应的值。通过将似然证据与语义证据聚合为指纹成功率,可在黑盒/灰盒访问场景下完成所有权验证。\textsc{ForgetMark} 依赖概率性遗忘痕迹而非固定的触发-响应模式,从而避免了高困惑度触发词,降低了可检测性与误触发率。在多样化架构与设置中,该方法在指纹模型上实现了 100\% 的所有权验证率且保持标准性能,在隐蔽性和模型合并鲁棒性方面超越后门基线,并在适度增量微调下保持有效性。代码与数据公开于 \href{https://github.com/Xuzhenhua55/ForgetMark}{https://github.com/Xuzhenhua55/ForgetMark}。

0
下载
关闭预览

相关内容

基于深度学习的伪装目标检测研究进展
专知会员服务
30+阅读 · 2025年4月12日
【CVPR2024】持续遗忘对于预训练视觉模型
专知会员服务
19+阅读 · 2024年3月20日
机器遗忘:分类、指标、应用、挑战与展望
专知会员服务
36+阅读 · 2024年3月16日
开源OCR文本检测器,基于TextBoxes++和RetinaNet
专知
11+阅读 · 2019年11月15日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
基于深度学习的伪装目标检测研究进展
专知会员服务
30+阅读 · 2025年4月12日
【CVPR2024】持续遗忘对于预训练视觉模型
专知会员服务
19+阅读 · 2024年3月20日
机器遗忘:分类、指标、应用、挑战与展望
专知会员服务
36+阅读 · 2024年3月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员