SRAF: Stealthy and Robust Adversarial Fingerprint for Copyright Verification of Large Language Models - 专知论文

会员服务 ·

0

对抗 · 鲁棒 · 困惑度 · 黑盒 · 语言模型 ·

SRAF: Stealthy and Robust Adversarial Fingerprint for Copyright Verification of Large Language Models

翻译：SRAF：面向大语言模型版权验证的隐蔽鲁棒对抗指纹

Zhebo Wang,Zhenhua Xu,Maike Li,Wenpeng Xing,Chunqiang Hu,Chen Zhi,Meng Han

The protection of Intellectual Property (IP) for Large Language Models (LLMs) has become a critical concern as model theft and unauthorized commercialization escalate. While adversarial fingerprinting offers a promising black-box solution for ownership verification, existing methods suffer from significant limitations: they are fragile against model modifications, sensitive to system prompt variations, and easily detectable due to high-perplexity input patterns. In this paper, we propose SRAF, which employs a multi-task adversarial optimization strategy that jointly optimizes fingerprints across homologous model variants and diverse chat templates, allowing the fingerprint to anchor onto invariant decision boundary features. Furthermore, we introduce a Perplexity Hiding technique that embeds adversarial perturbations within Markdown tables, effectively aligning the prompt's statistics with natural language to evade perplexity-based detection. Experiments on Llama-2 variants demonstrate SRAF's superior robustness and stealthiness compared to state-of-the-art baselines, offering a practical black-box solution for ownership verification.

翻译：随着模型窃取与未经授权的商业化行为日益猖獗，大语言模型（LLMs）的知识产权（IP）保护已成为关键问题。尽管对抗指纹技术为所有权验证提供了一种前景广阔的黑盒解决方案，但现有方法存在显著局限：它们对模型修改极为脆弱，对系统提示词的变动高度敏感，且因其高困惑度的输入模式而易于被检测。本文提出SRAF方法，采用一种多任务对抗优化策略，该策略在同类模型变体与多样化对话模板上联合优化指纹，使指纹能够锚定于不变的决策边界特征。此外，我们引入一种困惑度隐藏技术，将对抗扰动嵌入Markdown表格中，有效使提示词的统计特征与自然语言对齐，从而规避基于困惑度的检测。在Llama-2系列模型上的实验表明，相较于现有先进基线方法，SRAF在鲁棒性与隐蔽性方面均表现出显著优势，为所有权验证提供了一种实用的黑盒解决方案。

0

相关内容

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

149+阅读 · 2019年4月7日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

基于氘、氟掺杂氧化锌薄膜晶体管的透明指纹识别系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

抗密钥篡改可证明安全公钥密码算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection

Arxiv

0+阅读 · 1月31日

FNF: Functional Network Fingerprint for Large Language Models

Arxiv

0+阅读 · 1月30日

From Construction to Injection: Edit-Based Fingerprints for Large Language Models

Arxiv

0+阅读 · 1月21日

Reading Between the Lines: Towards Reliable Black-box LLM Fingerprinting via Zeroth-order Gradient Estimation

Arxiv

0+阅读 · 1月21日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月21日

FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting

Arxiv

0+阅读 · 1月19日

DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

Arxiv

0+阅读 · 1月19日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月19日

DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

Arxiv

0+阅读 · 1月13日

SRAF: Stealthy and Robust Adversarial Fingerprint for Copyright Verification of Large Language Models

Arxiv

0+阅读 · 1月12日

VIP会员

文章信息

相关主题

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

18+阅读 · 4月22日

相关VIP内容

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

【新书】大规模语言模型的隐私与安全，

【新书】大规模语言模型的隐私与安全，

专知会员服务

29+阅读 · 2024年12月4日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

大语言模型中的提示隐私保护

大语言模型中的提示隐私保护

专知会员服务

24+阅读 · 2024年7月24日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

如何攻击大模型？UIUC等最新《破解防御：大型语言模型攻击方法》综述

专知会员服务

45+阅读 · 2024年3月12日

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

《对齐语言模型的通用和可转移对抗性攻击》CMU等2023最新论文

专知会员服务

25+阅读 · 2024年1月2日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

149+阅读 · 2019年4月7日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

Spooftooph - 用于欺骗或克隆蓝牙设备的自动工具

黑白之道

17+阅读 · 2019年2月27日

ICASSP最佳学生论文：深度对抗声学模型训练框架

ICASSP最佳学生论文：深度对抗声学模型训练框架

专知

14+阅读 · 2018年4月28日

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

【好文解析】ICASSP最佳学生论文：深度对抗声学模型训练框架

中国科学院自动化研究所

13+阅读 · 2018年4月28日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

相关论文

DuFFin: A Dual-Level Fingerprinting Framework for LLMs IP Protection

Arxiv

0+阅读 · 1月31日

FNF: Functional Network Fingerprint for Large Language Models

Arxiv

0+阅读 · 1月30日

From Construction to Injection: Edit-Based Fingerprints for Large Language Models

Arxiv

0+阅读 · 1月21日

Reading Between the Lines: Towards Reliable Black-box LLM Fingerprinting via Zeroth-order Gradient Estimation

Arxiv

0+阅读 · 1月21日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月21日

FDLLM: A Dedicated Detector for Black-Box LLMs Fingerprinting

Arxiv

0+阅读 · 1月19日

DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

Arxiv

0+阅读 · 1月19日

KinGuard: Hierarchical Kinship-Aware Fingerprinting to Defend Against Large Language Model Stealing

Arxiv

0+阅读 · 1月19日

DNF: Dual-Layer Nested Fingerprinting for Large Language Model Intellectual Property Protection

Arxiv

0+阅读 · 1月13日

SRAF: Stealthy and Robust Adversarial Fingerprint for Copyright Verification of Large Language Models

Arxiv

0+阅读 · 1月12日

相关基金

基于氘、氟掺杂氧化锌薄膜晶体管的透明指纹识别系统研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

抗密钥篡改可证明安全公钥密码算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于稀疏表示和低秩矩阵分解的鲁棒人脸识别研究

国家自然科学基金

2+阅读 · 2015年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员