The promise of LLM watermarking rests on a core assumption that a specific watermark proves authorship by a specific model. We demonstrate that this assumption is dangerously flawed. We introduce the threat of watermark spoofing, a sophisticated attack that allows a malicious model to generate text containing the authentic-looking watermark of a trusted, victim model. This enables the seamless misattribution of harmful content, such as disinformation, to reputable sources. The key to our attack is repurposing watermark radioactivity, the unintended inheritance of data patterns during fine-tuning, from a discoverable trait into an attack vector. By distilling knowledge from a watermarked teacher model, our framework allows an attacker to steal and replicate the watermarking signal of the victim model. This work reveals a critical security gap in text authorship verification and calls for a paradigm shift towards technologies capable of distinguishing authentic watermarks from expertly imitated ones. Our code is available at https://github.com/hsannn/ditto.git.


翻译:大语言模型水印技术的基本前提在于一个核心假设:特定水印能够证明文本由特定模型生成。我们证明这一假设存在严重缺陷。我们提出了水印欺骗这一新型威胁,这是一种复杂的攻击手段,允许恶意模型生成包含可信受害者模型真实外观水印的文本。这使得有害内容(例如虚假信息)能够被无缝错误归因于信誉良好的来源。我们攻击的关键在于重新利用水印放射性——即在微调过程中数据模式的无意继承——将其从一个可发现的特性转变为攻击向量。通过从带水印的教师模型中蒸馏知识,我们的框架使攻击者能够窃取并复制受害者模型的水印信号。这项工作揭示了文本作者身份验证领域的一个关键安全漏洞,并呼吁向能够区分真实水印与专业仿冒水印的技术进行范式转变。我们的代码可在 https://github.com/hsannn/ditto.git 获取。

0
下载
关闭预览

相关内容

面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
大语言模型安全现状与挑战
专知会员服务
88+阅读 · 2024年1月14日
ChatGPT有什么用? 论大语言模型在教育中的机遇与挑战
专知会员服务
78+阅读 · 2023年2月15日
专知会员服务
28+阅读 · 2021年7月16日
对抗攻击之利用水印生成对抗样本
计算机视觉life
10+阅读 · 2020年9月27日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月23日
Arxiv
0+阅读 · 2月6日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
1+阅读 · 今天14:38
Palantir AIP平台:连接智能体与决策
专知会员服务
7+阅读 · 今天1:22
《美海军软件测试战略》90页slides
专知会员服务
7+阅读 · 今天1:00
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
8+阅读 · 4月30日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员