Unforgeable Watermarks for Language Models via Robust Signatures - 专知论文

会员服务 ·

0

鲁棒 · 不可伪造性 · 语言模型 · 模型生成 · 工具 ·

Unforgeable Watermarks for Language Models via Robust Signatures

翻译：基于鲁棒签名的语言模型不可伪造水印

Huijia Lin,Kameron Shahabi,Min Jae Song

from arxiv, 60 pages, 7 figures

Language models now routinely produce text that is difficult to distinguish from human writing, raising the need for robust tools to verify content provenance. Watermarking has emerged as a promising countermeasure, with existing work largely focused on model quality preservation and robust detection. However, current schemes provide limited protection against false attribution. We strengthen the notion of soundness by introducing two novel guarantees: unforgeability and recoverability. Unforgeability prevents adversaries from crafting false positives, texts that are far from any output from the watermarked model but are nonetheless flagged as watermarked. Recoverability provides an additional layer of protection: whenever a watermark is detected, the detector identifies the source text from which the flagged content was derived. Together, these properties strengthen content ownership by linking content exclusively to its generating model, enabling secure attribution and fine-grained traceability. We construct the first undetectable watermarking scheme that is robust, unforgeable, and recoverable with respect to substitutions (i.e., perturbations in Hamming metric). The key technical ingredient is a new cryptographic primitive called robust (or recoverable) digital signatures, which allow verification of messages that are close to signed ones, while preventing forgery of messages that are far from all previously signed messages. We show that any standard digital signature scheme can be boosted to a robust one using property-preserving hash functions (Boyle, LaVigne, and Vaikuntanathan, ITCS 2019).

翻译：随着语言模型生成的文本已难以与人类写作区分，亟需可靠工具验证内容来源。水印技术已成为一种有效的应对手段，现有研究主要关注模型质量保持与鲁棒检测。然而，当前方案对错误归属的防护能力有限。本文通过引入两个新的安全保证——不可伪造性与可恢复性，强化了水印的可靠性概念。不可伪造性防止攻击者构造误报，即生成与带水印模型输出相距甚远却被标记为带水印的文本。可恢复性提供额外保护层：当检测到水印时，检测器能识别被标记内容所源自的源文本。这些特性通过将内容与其生成模型唯一关联，强化了内容所有权，实现了安全归属与细粒度溯源。我们构建了首个针对替换操作（即汉明度量下的扰动）具有鲁棒性、不可伪造性与可恢复性的不可检测水印方案。关键技术要素是一种称为鲁棒（或可恢复）数字签名的新型密码学原语，该原语允许验证与已签名消息相近的消息，同时防止伪造与所有已签名消息相距甚远的新消息。我们证明，利用属性保持哈希函数（Boyle, LaVigne与Vaikuntanathan, ITCS 2019），任何标准数字签名方案均可升级为鲁棒签名方案。

0

相关内容

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

扩散模型时代的可视水印：进展与挑战

扩散模型时代的可视水印：进展与挑战

专知会员服务

7+阅读 · 2025年5月17日

大模型时代下的文本水印综述

大模型时代下的文本水印综述

专知会员服务

35+阅读 · 2024年1月26日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

41+阅读 · 2023年10月29日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

专知会员服务

26+阅读 · 2022年7月13日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

Kaggle知识点：伪标签Pseudo Label

Kaggle知识点：伪标签Pseudo Label

AINLP

40+阅读 · 2020年8月9日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

基于GAN的图像水印去除器，效果堪比PS高手

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

Jupyter Notebook的三大短板，都被这个新工具补齐了

Jupyter Notebook的三大短板，都被这个新工具补齐了

量子位

71+阅读 · 2018年9月10日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Arxiv

0+阅读 · 3月2日

Vanishing Watermarks: Diffusion-Based Image Editing Undermines Robust Invisible Watermarking

Arxiv

0+阅读 · 2月24日

Decoupling Defense Strategies for Robust Image Watermarking

Arxiv

0+阅读 · 2月23日

A Watermark for Black-Box Language Models

Arxiv

0+阅读 · 2月23日

Online LLM watermark detection via e-processes

Arxiv

0+阅读 · 2月15日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models

Arxiv

0+阅读 · 2月6日

A Unified Framework for LLM Watermarks

Arxiv

0+阅读 · 2月6日

Improving Detection of Watermarked Language Models

Arxiv

0+阅读 · 2月3日

MirrorMark: A Distortion-Free Multi-Bit Watermark for Large Language Models

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

不可伪造性

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

2+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

5+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

7+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

17+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

4+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

扩散模型时代的可视水印：进展与挑战

扩散模型时代的可视水印：进展与挑战

专知会员服务

7+阅读 · 2025年5月17日

大模型时代下的文本水印综述

大模型时代下的文本水印综述

专知会员服务

35+阅读 · 2024年1月26日

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

《深度伪造检测模型的准确性和鲁棒性》2023最新论文

专知会员服务

41+阅读 · 2023年10月29日

大型语言模型对齐

大型语言模型对齐

专知会员服务

120+阅读 · 2023年9月27日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

【伯克利博士论文】构建鲁棒且可扩展的大型语言模型，102页pdf

专知会员服务

45+阅读 · 2023年5月16日

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

【MIT博士论文】鲁棒高效的深度学习在虚假信息预防中的应用

专知会员服务

26+阅读 · 2022年7月13日

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

【AAAI2022】联合文本分类和关系提取的统一模型可解释性和鲁棒性

专知会员服务

19+阅读 · 2021年12月30日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

Kaggle知识点：伪标签Pseudo Label

Kaggle知识点：伪标签Pseudo Label

AINLP

40+阅读 · 2020年8月9日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

基于GAN的图像水印去除器，效果堪比PS高手

基于GAN的图像水印去除器，效果堪比PS高手

AI100

12+阅读 · 2019年6月25日

读者来稿 | 有效遮挡检测的鲁棒人脸识别

读者来稿 | 有效遮挡检测的鲁棒人脸识别

计算机视觉战队

19+阅读 · 2019年3月28日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

Jupyter Notebook的三大短板，都被这个新工具补齐了

Jupyter Notebook的三大短板，都被这个新工具补齐了

量子位

71+阅读 · 2018年9月10日

文本识别 OCR 浅析：特征篇

文本识别 OCR 浅析：特征篇

开源中国

16+阅读 · 2018年1月6日

相关论文

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Arxiv

0+阅读 · 3月2日

Vanishing Watermarks: Diffusion-Based Image Editing Undermines Robust Invisible Watermarking

Arxiv

0+阅读 · 2月24日

Decoupling Defense Strategies for Robust Image Watermarking

Arxiv

0+阅读 · 2月23日

A Watermark for Black-Box Language Models

Arxiv

0+阅读 · 2月23日

Online LLM watermark detection via e-processes

Arxiv

0+阅读 · 2月15日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

Shallow Diffuse: Robust and Invisible Watermarking through Low-Dimensional Subspaces in Diffusion Models

Arxiv

0+阅读 · 2月6日

A Unified Framework for LLM Watermarks

Arxiv

0+阅读 · 2月6日

Improving Detection of Watermarked Language Models

Arxiv

0+阅读 · 2月3日

MirrorMark: A Distortion-Free Multi-Bit Watermark for Large Language Models

Arxiv

0+阅读 · 1月29日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不确定性计算的鲁棒风险评估关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

考虑不确定性的结构动力学响应模型可信度确认方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员