The protection of Intellectual Property (IP) for Large Language Models (LLMs) has become a critical concern as model theft and unauthorized commercialization escalate. While adversarial fingerprinting offers a promising black-box solution for ownership verification, existing methods suffer from significant limitations: they are fragile against model modifications, sensitive to system prompt variations, and easily detectable due to high-perplexity input patterns. In this paper, we propose SRAF, which employs a multi-task adversarial optimization strategy that jointly optimizes fingerprints across homologous model variants and diverse chat templates, allowing the fingerprint to anchor onto invariant decision boundary features. Furthermore, we introduce a Perplexity Hiding technique that embeds adversarial perturbations within Markdown tables, effectively aligning the prompt's statistics with natural language to evade perplexity-based detection. Experiments on Llama-2 variants demonstrate SRAF's superior robustness and stealthiness compared to state-of-the-art baselines, offering a practical black-box solution for ownership verification.


翻译:随着模型窃取与未经授权的商业化行为日益猖獗,大语言模型(LLMs)的知识产权(IP)保护已成为关键问题。尽管对抗指纹技术为所有权验证提供了一种前景广阔的黑盒解决方案,但现有方法存在显著局限:它们对模型修改极为脆弱,对系统提示词的变动高度敏感,且因其高困惑度的输入模式而易于被检测。本文提出SRAF方法,采用一种多任务对抗优化策略,该策略在同类模型变体与多样化对话模板上联合优化指纹,使指纹能够锚定于不变的决策边界特征。此外,我们引入一种困惑度隐藏技术,将对抗扰动嵌入Markdown表格中,有效使提示词的统计特征与自然语言对齐,从而规避基于困惑度的检测。在Llama-2系列模型上的实验表明,相较于现有先进基线方法,SRAF在鲁棒性与隐蔽性方面均表现出显著优势,为所有权验证提供了一种实用的黑盒解决方案。

0
下载
关闭预览

相关内容

综述:面向移动端大语言模型的隐私与安全
专知会员服务
19+阅读 · 2025年9月7日
【新书】大规模语言模型的隐私与安全,
专知会员服务
29+阅读 · 2024年12月4日
大型语言模型对齐技术综述:RLHF、RLAIF、PPO、DPO 等
专知会员服务
55+阅读 · 2024年7月24日
大语言模型中的提示隐私保护
专知会员服务
24+阅读 · 2024年7月24日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
FaceNiff工具 - 适用于黑客的Android应用程序
黑白之道
148+阅读 · 2019年4月7日
读者来稿 | 有效遮挡检测的鲁棒人脸识别
计算机视觉战队
19+阅读 · 2019年3月28日
Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具
黑白之道
17+阅读 · 2019年2月27日
【好文解析】ICASSP最佳学生论文:深度对抗声学模型训练框架
中国科学院自动化研究所
13+阅读 · 2018年4月28日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员