Watermarking has emerged as a promising technique to track AI-generated content and differentiate it from authentic human creations. While prior work extensively studies watermarking for autoregressive large language models (LLMs) and image diffusion models, it remains comparatively underexplored for discrete diffusion language models (DDLMs), which are becoming popular due to their high inference throughput. In this paper, we introduce one of the first watermarking methods for DDLMs. Our approach applies a distribution-preserving Gumbel-max sampling trick at every diffusion step and seeds the randomness by sequence position to enable reliable detection. We empirically demonstrate reliable detectability on LLaDA, a state-of-the-art DDLM. We also analytically prove that the watermark is distortion-free, with a false detection probability that decays exponentially in the sequence length. A key practical advantage is that our method realizes desired watermarking properties with no expensive hyperparameter tuning, making it straightforward to deploy and scale across models and benchmarks.


翻译:水印技术已成为追踪人工智能生成内容并区分其与真实人类创作的有前景的方法。尽管先前研究已广泛探讨了自回归大语言模型(LLMs)和图像扩散模型的水印嵌入,但对于因高推理吞吐量而日益流行的离散扩散语言模型(DDLMs),相关研究仍相对不足。本文提出了针对DDLMs的首批水印方法之一。我们的方法在每一扩散步骤中应用保分布的Gumbel-max采样技巧,并通过序列位置设定随机种子以实现可靠检测。我们在当前最先进的DDLM模型LLaDA上通过实验验证了该方法的可靠检测性。同时,我们通过理论分析证明该水印具有无失真特性,其误检概率随序列长度呈指数级衰减。本方法的关键实践优势在于:无需昂贵的超参数调优即可实现理想的水印特性,使其能够直接部署并轻松扩展到不同模型与基准测试中。

0
下载
关闭预览

相关内容

144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
【ICML2024】理解大型语言模型在规划中的作用,138页pdf
专知会员服务
49+阅读 · 2024年7月24日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
专知会员服务
28+阅读 · 2021年7月16日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
Arxiv
0+阅读 · 2月6日
VIP会员
相关VIP内容
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
50+阅读 · 2025年11月21日
扩散语言模型综述
专知会员服务
18+阅读 · 2025年8月15日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
【ICML2024】理解大型语言模型在规划中的作用,138页pdf
专知会员服务
49+阅读 · 2024年7月24日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
大型语言模型对齐
专知会员服务
119+阅读 · 2023年9月27日
专知会员服务
28+阅读 · 2021年7月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员