Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection - 专知论文

会员服务 ·

0

攻击 · 连贯性 · 攻击方法 · 语言模型 · 嵌入 ·

Breaking Semantic-Aware Watermarks via LLM-Guided Coherence-Preserving Semantic Injection

翻译：基于大语言模型引导的语义感知水印破解：一种保持连贯性的语义注入攻击方法

Zheng Gao,Xiaoyu Li,Zhicheng Bao,Xiaoyan Feng,Jiaojiao Jiang

from arxiv, Accepted by The Web Conference 2026 (Short Paper Track)

Generative images have proliferated on Web platforms in social media and online copyright distribution scenarios, and semantic watermarking has increasingly been integrated into diffusion models to support reliable provenance tracking and forgery prevention for web content. Traditional noise-layer-based watermarking, however, remains vulnerable to inversion attacks that can recover embedded signals. To mitigate this, recent content-aware semantic watermarking schemes bind watermark signals to high-level image semantics, constraining local edits that would otherwise disrupt global coherence. Yet, large language models (LLMs) possess structured reasoning capabilities that enable targeted exploration of semantic spaces, allowing locally fine-grained but globally coherent semantic alterations that invalidate such bindings. To expose this overlooked vulnerability, we introduce a Coherence-Preserving Semantic Injection (CSI) attack that leverages LLM-guided semantic manipulation under embedding-space similarity constraints. This alignment enforces visual-semantic consistency while selectively perturbing watermark-relevant semantics, ultimately inducing detector misclassification. Extensive empirical results show that CSI consistently outperforms prevailing attack baselines against content-aware semantic watermarking, revealing a fundamental security weakness of current semantic watermark designs when confronted with LLM-driven semantic perturbations.

翻译：生成式图像已在社交媒体和在线版权分发等网络平台场景中广泛传播，语义水印技术正日益融入扩散模型以支持网络内容的可靠溯源与防伪。然而，传统的基于噪声层的水印方法仍易受逆向攻击，导致嵌入信号被恢复。为应对此问题，近期基于内容感知的语义水印方案将水印信号与高层图像语义绑定，从而限制可能破坏全局连贯性的局部编辑。然而，大语言模型（LLMs）具备结构化推理能力，能够对语义空间进行定向探索，实现局部细粒度而全局连贯的语义修改，从而破坏此类绑定关系。为揭示这一被忽视的安全隐患，我们提出一种保持连贯性的语义注入（CSI）攻击方法，该方法在嵌入空间相似性约束下利用LLM引导的语义操控。这种对齐机制在保持视觉-语义一致性的同时，选择性地扰动与水印相关的语义，最终导致检测器误判。大量实验结果表明，CSI在针对内容感知语义水印的攻击中持续优于主流基线方法，揭示了当前语义水印设计在面对LLM驱动的语义扰动时存在的根本性安全缺陷。

0

相关内容

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

扩散模型时代的可视水印：进展与挑战

扩散模型时代的可视水印：进展与挑战

专知会员服务

7+阅读 · 2025年5月17日

融合知识图谱的大语言模型研究综述

融合知识图谱的大语言模型研究综述

专知会员服务

38+阅读 · 2025年4月18日

面向网络空间认知战的大语言模型：技术与挑战

面向网络空间认知战的大语言模型：技术与挑战

专知会员服务

51+阅读 · 2025年1月3日

大模型时代下的文本水印综述

大模型时代下的文本水印综述

专知会员服务

35+阅读 · 2024年1月26日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

19+阅读 · 2023年9月30日

【AAAI2022】上下文感知的词语替换与文本溯源

【AAAI2022】上下文感知的词语替换与文本溯源

专知会员服务

18+阅读 · 2022年1月23日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

Arxiv

0+阅读 · 3月13日

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

Arxiv

0+阅读 · 3月10日

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Arxiv

0+阅读 · 2月23日

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Online LLM watermark detection via e-processes

Arxiv

0+阅读 · 2月15日

TriniMark: A Robust Generative Speech Watermarking Method for Trinity-Level Traceability

Arxiv

0+阅读 · 2月15日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Arxiv

0+阅读 · 2月10日

A Unified Framework for LLM Watermarks

Arxiv

0+阅读 · 2月6日

WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

0+阅读 · 今天14:42

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

0+阅读 · 今天14:38

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

7+阅读 · 今天1:22

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

3+阅读 · 今天1:17

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

4+阅读 · 今天1:12

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

3+阅读 · 今天1:11

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

7+阅读 · 今天1:00

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

6+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

6+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

8+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

15+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

7+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

12+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

7+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

9+阅读 · 4月29日

相关VIP内容

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

大语言模型与视觉模型中的幻觉现象理解综述

大语言模型与视觉模型中的幻觉现象理解综述

专知会员服务

21+阅读 · 2025年10月2日

扩散模型时代的可视水印：进展与挑战

扩散模型时代的可视水印：进展与挑战

专知会员服务

7+阅读 · 2025年5月17日

融合知识图谱的大语言模型研究综述

融合知识图谱的大语言模型研究综述

专知会员服务

38+阅读 · 2025年4月18日

面向网络空间认知战的大语言模型：技术与挑战

面向网络空间认知战的大语言模型：技术与挑战

专知会员服务

51+阅读 · 2025年1月3日

大模型时代下的文本水印综述

大模型时代下的文本水印综述

专知会员服务

35+阅读 · 2024年1月26日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

19+阅读 · 2023年9月30日

【AAAI2022】上下文感知的词语替换与文本溯源

【AAAI2022】上下文感知的词语替换与文本溯源

专知会员服务

18+阅读 · 2022年1月23日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

腾讯信息流内容理解技术实践，A User-Centered Concept Mining System for Query and Document Understanding at Tencent

专知会员服务

41+阅读 · 2019年12月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《图世界模型：概念、分类体系与未来方向》

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

Palantir AIP平台：连接智能体与决策

相关资讯

对抗攻击之利用水印生成对抗样本

对抗攻击之利用水印生成对抗样本

计算机视觉life

10+阅读 · 2020年9月27日

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

【新书】自然语言处理嵌入：语义向量表示理论与进展，从Word2Vec到BERT，163页pdf

专知

23+阅读 · 2020年4月4日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

【学界】DeepMind论文：深度压缩感知，新框架提升GAN性能

GAN生成式对抗网络

14+阅读 · 2019年5月23日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

专知

11+阅读 · 2018年3月20日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

相关论文

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

Arxiv

0+阅读 · 3月13日

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

Arxiv

0+阅读 · 3月10日

DITTO: A Spoofing Attack Framework on Watermarked LLMs via Knowledge Distillation

Arxiv

0+阅读 · 2月23日

Watermarking Diffusion Language Models

Arxiv

0+阅读 · 2月19日

Online LLM watermark detection via e-processes

Arxiv

0+阅读 · 2月15日

TriniMark: A Robust Generative Speech Watermarking Method for Trinity-Level Traceability

Arxiv

0+阅读 · 2月15日

Watermarking Discrete Diffusion Language Models

Arxiv

0+阅读 · 2月12日

AGMark: Attention-Guided Dynamic Watermarking for Large Vision-Language Models

Arxiv

0+阅读 · 2月10日

A Unified Framework for LLM Watermarks

Arxiv

0+阅读 · 2月6日

WMVLM: Evaluating Diffusion Model Image Watermarking via Vision-Language Models

Arxiv

0+阅读 · 2月4日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

融合稀疏层次模型的内容辨识研究

国家自然科学基金

2+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大数据环境下多媒体网络舆情信息的语义识别与危机响应研究

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员