Watermarking methods for language models have been studied extensively in the autoregressive setting, where tokens are generated sequentially. These works largely focus on local-context schemes that perturb the next token's distribution as a function of its preceding tokens. In diffusion language models, distributions over many unresolved positions are jointly sampled, allowing additive statistics of the entire sequence to be tractable during generation. We propose a watermark for masked diffusion language models that controls a global, vector-valued sketch representation of the text. Compared to context-dependent watermarking, the sketch formulation decouples detection from the local contexts seen during generation, resulting in an order-agnostic statistic and a watermarking rule which does not manifest as a simple token bias. We analyze the distortion, soundness, and robustness properties of the method.


翻译:针对自回归生成场景(即按序生成token)的语言模型水印方法已得到广泛研究。这类工作主要聚焦于局部上下文方案:通过扰动后续token的概率分布,使其依赖于前序token。而在扩散语言模型中,对多个未确定位置的分布进行联合采样,使得生成过程中整个序列的可加性统计量具有可处理性。我们提出一种适用于掩码扩散语言模型的水印方法,该方法通过控制文本的全局向量化草图表示实现水印嵌入。与上下文相关的水印相比,草图表示将检测过程与生成时使用的局部上下文解耦,从而生成与顺序无关的统计量以及不表现为简单token偏置的水印规则。本文分析了该方法的失真度、可靠性和鲁棒性特征。

0
下载
关闭预览

相关内容

内省扩散语言模型
专知会员服务
13+阅读 · 4月14日
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
专知会员服务
28+阅读 · 2021年7月16日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
Arxiv
0+阅读 · 5月25日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关VIP内容
内省扩散语言模型
专知会员服务
13+阅读 · 4月14日
144页ppt《扩散模型》,Google DeepMind Sander Dieleman
专知会员服务
51+阅读 · 2025年11月21日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
用于语言生成的离散扩散模型
专知会员服务
12+阅读 · 2025年7月10日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
专知会员服务
28+阅读 · 2021年7月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员