How Good is Post-Hoc Watermarking With Language Model Rephrasing? - 专知论文

会员服务 ·

0

语言模型 · 束搜索 · 搜索 · 大语言模型 · 文本水印 ·

How Good is Post-Hoc Watermarking With Language Model Rephrasing?

翻译：后置水印与语言模型重述的效果评估

Pierre Fernandez,Tom Sander,Hady Elsahar,Hongyan Chang,Tomáš Souček,Valeriu Lacatusu,Tuan Tran,Sylvestre-Alvise Rebuffi,Alexandre Mourachko

from arxiv, Code at https://github.com/facebookresearch/textseal

Generation-time text watermarking embeds statistical signals into text for traceability of AI-generated content. We explore *post-hoc watermarking* where an LLM rewrites existing text while applying generation-time watermarking, to protect copyrighted documents, or detect their use in training or RAG via watermark radioactivity. Unlike generation-time approaches, which is constrained by how LLMs are served, this setting offers additional degrees of freedom for both generation and detection. We investigate how allocating compute (through larger rephrasing models, beam search, multi-candidate generation, or entropy filtering at detection) affects the quality-detectability trade-off. Our strategies achieve strong detectability and semantic fidelity on open-ended text such as books. Among our findings, the simple Gumbel-max scheme surprisingly outperforms more recent alternatives under nucleus sampling, and most methods benefit significantly from beam search. However, most approaches struggle when watermarking verifiable text such as code, where we counterintuitively find that smaller models outperform larger ones. This study reveals both the potential and limitations of post-hoc watermarking, laying groundwork for practical applications and future research.

翻译：生成时文本水印通过将统计信号嵌入文本来实现AI生成内容的溯源。本研究探索*后置水印*方法：利用大语言模型对现有文本进行重写并同时应用生成时水印技术，旨在保护受版权保护的文档，或通过水印放射性检测其在训练或检索增强生成中的使用。与受限于大语言模型服务方式的生成时方法不同，该设置为生成和检测过程提供了额外的自由度。我们研究了计算资源分配（通过使用更大的重述模型、束搜索、多候选生成或在检测阶段采用熵过滤）如何影响质量与可检测性之间的权衡。我们的策略在书籍等开放式文本上实现了强大的可检测性和语义保真度。研究发现，在核采样条件下，简单的Gumbel-max方案意外地优于近期提出的替代方法，且大多数方法能显著受益于束搜索。然而，当对代码等可验证文本进行水印处理时，大多数方法表现欠佳——我们反直觉地发现较小模型反而优于较大模型。本研究揭示了后置水印技术的潜力与局限，为实际应用和未来研究奠定了基础。

0

相关内容

语言模型

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

扩散模型时代的可视水印：进展与挑战

扩散模型时代的可视水印：进展与挑战

专知会员服务

7+阅读 · 2025年5月17日

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

专知会员服务

31+阅读 · 2024年12月18日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

40+阅读 · 2024年8月29日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

大模型时代下的文本水印综述

大模型时代下的文本水印综述

专知会员服务

35+阅读 · 2024年1月26日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Unforgeable Watermarks for Language Models via Robust Signatures

Arxiv

0+阅读 · 2月17日

Online LLM watermark detection via e-processes

Arxiv

0+阅读 · 2月15日

MC$^2$Mark: Distortion-Free Multi-Bit Watermarking for Long Messages

Arxiv

0+阅读 · 2月15日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

More Haste, Less Speed: Weaker Single-Layer Watermark Improves Distortion-Free Watermark Ensembles

Arxiv

0+阅读 · 2月12日

AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Arxiv

0+阅读 · 2月10日

A Unified Framework for LLM Watermarks

Arxiv

0+阅读 · 2月6日

Improving Detection of Watermarked Language Models

Arxiv

0+阅读 · 2月3日

Improve the Trade-off Between Watermark Strength and Speculative Sampling Efficiency for Language Models

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

大语言模型

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

12+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

5+阅读 · 4月24日

相关VIP内容

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

扩散模型时代的可视水印：进展与挑战

扩散模型时代的可视水印：进展与挑战

专知会员服务

7+阅读 · 2025年5月17日

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

《人工智能生成式文本检测：数据集和数据生成》最新39页报告

专知会员服务

31+阅读 · 2024年12月18日

《多模态大语言模型评估综述》

《多模态大语言模型评估综述》

专知会员服务

40+阅读 · 2024年8月29日

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

ICML 2024 | 大语言模型预训练新前沿：「最佳适配打包」重塑文档处理标准

专知会员服务

24+阅读 · 2024年5月19日

大模型时代下的文本水印综述

大模型时代下的文本水印综述

专知会员服务

35+阅读 · 2024年1月26日

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

【博士论文】负责任大型语言模型:安全性、公平性、可信性，142页pdf

专知会员服务

34+阅读 · 2024年1月26日

《大型语言模型归因》综述

《大型语言模型归因》综述

专知会员服务

75+阅读 · 2023年11月8日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

Video Description视频描述综述论文-方法、数据集和评估指标，UWA

专知

38+阅读 · 2020年3月5日

金融领域自然语言处理研究资源大列表

金融领域自然语言处理研究资源大列表

专知

13+阅读 · 2020年2月27日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

可能是 Android 上最好用的写作 App

可能是 Android 上最好用的写作 App

少数派

11+阅读 · 2018年12月21日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

相关论文

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Unforgeable Watermarks for Language Models via Robust Signatures

Arxiv

0+阅读 · 2月17日

Online LLM watermark detection via e-processes

Arxiv

0+阅读 · 2月15日

MC$^2$Mark: Distortion-Free Multi-Bit Watermarking for Long Messages

Arxiv

0+阅读 · 2月15日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

More Haste, Less Speed: Weaker Single-Layer Watermark Improves Distortion-Free Watermark Ensembles

Arxiv

0+阅读 · 2月12日

AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Arxiv

0+阅读 · 2月10日

A Unified Framework for LLM Watermarks

Arxiv

0+阅读 · 2月6日

Improving Detection of Watermarked Language Models

Arxiv

0+阅读 · 2月3日

Improve the Trade-off Between Watermark Strength and Speculative Sampling Efficiency for Language Models

Arxiv

0+阅读 · 2月1日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员