dgMARK: Decoding-Guided Watermarking for Diffusion Language Models - 专知论文

会员服务 ·

0

解码 · 扩散语言模型 · 词元 · 语言模型 · 离散 ·

dgMARK: Decoding-Guided Watermarking for Diffusion Language Models

翻译：dgMARK：面向扩散语言模型的解码引导水印方法

Pyo Min Hong,Albert No

from arxiv, Project page: https://dgmark-watermarking.github.io

We propose dgMARK, a decoding-guided watermarking method for discrete diffusion language models (dLLMs). Unlike autoregressive models, dLLMs can generate tokens in arbitrary order. While an ideal conditional predictor would be invariant to this order, practical dLLMs exhibit strong sensitivity to the unmasking order, creating a new channel for watermarking. dgMARK steers the unmasking order toward positions whose high-reward candidate tokens satisfy a simple parity constraint induced by a binary hash, without explicitly reweighting the model's learned probabilities. The method is plug-and-play with common decoding strategies (e.g., confidence, entropy, and margin-based ordering) and can be strengthened with a one-step lookahead variant. Watermarks are detected via elevated parity-matching statistics, and a sliding-window detector ensures robustness under post-editing operations including insertion, deletion, substitution, and paraphrasing.

翻译：本文提出dgMARK，一种面向离散扩散语言模型（dLLMs）的解码引导水印方法。与自回归模型不同，dLLMs能够以任意顺序生成词元。虽然理想的条件预测器应具有顺序不变性，但实际dLLMs对解掩顺序表现出强烈敏感性，这为水印技术开辟了新通道。dgMARK通过引导解掩顺序指向特定位置——这些位置的高奖励候选词元需满足由二进制哈希函数诱导的简单奇偶约束，而无需显式重加权模型已学习的概率分布。该方法可与常见解码策略（如基于置信度、熵和边际的排序策略）即插即用，并可通过单步前瞻变体进一步增强。水印检测通过统计奇偶匹配率的异常升高实现，滑动窗口检测器则确保其在插入、删除、替换和改写等后编辑操作下保持鲁棒性。

0

相关内容

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

专知会员服务

49+阅读 · 2024年7月24日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

Python自然语言处理: 使用SpaCycle库进行标记化、词干提取和词形还原

Python自然语言处理: 使用SpaCycle库进行标记化、词干提取和词形还原

Python程序员

18+阅读 · 2019年3月28日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

Arxiv

0+阅读 · 2月12日

AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Arxiv

0+阅读 · 2月10日

DAWN: Dependency-Aware Fast Inference for Diffusion LLMs

Arxiv

0+阅读 · 2月6日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 2月5日

Unifying Watermarking via Dimension-Aware Mapping

Arxiv

0+阅读 · 2月3日

Residual Context Diffusion Language Models

Arxiv

0+阅读 · 1月30日

VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection

Arxiv

0+阅读 · 1月30日

MirrorMark: A Distortion-Free Multi-Bit Watermark for Large Language Models

Arxiv

0+阅读 · 1月29日

VIP会员

文章信息

相关主题

扩散语言模型

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

1+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

4+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

3+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

5+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

5+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

5+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

12+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

4+阅读 · 4月24日

相关VIP内容

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

扩散语言模型综述

扩散语言模型综述

专知会员服务

19+阅读 · 2025年8月15日

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

【WWW2025】G-Refer：基于图检索增强的大型语言模型用于可解释推荐

专知会员服务

13+阅读 · 2025年4月8日

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

【ICML2024】理解大型语言模型在规划中的作用，138页pdf

专知会员服务

49+阅读 · 2024年7月24日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

Python自然语言处理: 使用SpaCycle库进行标记化、词干提取和词形还原

Python自然语言处理: 使用SpaCycle库进行标记化、词干提取和词形还原

Python程序员

18+阅读 · 2019年3月28日

Jiagu：中文深度学习自然语言处理工具

Jiagu：中文深度学习自然语言处理工具

AINLP

90+阅读 · 2019年2月20日

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

【泡泡一分钟】Grad-CAM（加权梯度类激活映射）：可视化解释基于梯度定位的深度网络（ICCV2017-60）

泡泡机器人SLAM

47+阅读 · 2018年8月1日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

相关论文

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

DICE: Diffusion Large Language Models Excel at Generating CUDA Kernels

Arxiv

0+阅读 · 2月12日

AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Arxiv

0+阅读 · 2月10日

DAWN: Dependency-Aware Fast Inference for Diffusion LLMs

Arxiv

0+阅读 · 2月6日

Improving Diffusion Language Model Decoding through Joint Search in Generation Order and Token Space

Arxiv

0+阅读 · 2月5日

Unifying Watermarking via Dimension-Aware Mapping

Arxiv

0+阅读 · 2月3日

Residual Context Diffusion Language Models

Arxiv

0+阅读 · 1月30日

VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection

Arxiv

0+阅读 · 1月30日

MirrorMark: A Distortion-Free Multi-Bit Watermark for Large Language Models

Arxiv

0+阅读 · 1月29日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

几类密码方案的格分析优化技术

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员