Watermarking LLM-generated text is critical for content attribution and misinformation prevention. However, existing methods compromise text quality, require white-box model access and logit manipulation. These limitations exclude API-based models and multilingual scenarios. We propose SAEMark, a general framework for post-hoc multi-bit watermarking that embeds personalized messages solely via inference-time, feature-based rejection sampling without altering model logits or requiring training. Our approach operates on deterministic features extracted from generated text, selecting outputs whose feature statistics align with key-derived targets. This framework naturally generalizes across languages and domains while preserving text quality through sampling LLM outputs instead of modifying. We provide theoretical guarantees relating watermark success probability and compute budget that hold for any suitable feature extractor. Empirically, we demonstrate the framework's effectiveness using Sparse Autoencoders (SAEs), achieving superior detection accuracy and text quality. Experiments across 4 datasets show SAEMark's consistent performance, with 99.7% F1 on English and strong multi-bit detection accuracy. SAEMark establishes a new paradigm for scalable watermarking that works out-of-the-box with closed-source LLMs while enabling content attribution.


翻译:大语言模型生成文本的水印嵌入对于内容溯源与虚假信息防范至关重要。然而,现有方法往往以牺牲文本质量为代价,且需白盒模型访问权限及对数概率操作。这些限制使其难以适用于基于API的模型与多语言场景。本文提出SAEMark——一种通用的后置多比特水印框架,仅通过基于特征的推理时拒绝采样嵌入个性化信息,无需修改模型对数概率或进行额外训练。该方法基于生成文本提取的确定性特征进行操作,选择特征统计量与密钥派生目标相符的输出。该框架通过采样大语言模型输出而非直接修改,在保持文本质量的同时,天然适用于跨语言与跨领域场景。我们建立了适用于任意合适特征提取器的理论保证,揭示了水印成功概率与计算资源间的内在关联。实证研究中,我们采用稀疏自编码器验证了框架的有效性,实现了卓越的检测精度与文本质量。在4个数据集上的实验表明SAEMark具有稳定的性能表现,英语文本检测F1值达99.7%,多比特检测精度表现优异。SAEMark开创了可扩展水印技术的新范式,能够即插即用地适用于闭源大语言模型,同时实现可靠的内容溯源。

0
下载
关闭预览

相关内容

论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员