Watermarking has emerged as a pivotal solution for content traceability and intellectual property protection in Large Vision-Language Models (LVLMs). However, vision-agnostic watermarks introduce visually irrelevant tokens and disrupt visual grounding by enforcing indiscriminate pseudo-random biases, while some semantic-aware methods incur prohibitive inference latency due to rejection sampling. In this paper, we propose the VIsual Semantic Adaptive Watermark (VISA-Mark), a novel framework that embeds detectable signals while strictly preserving visual fidelity. Our approach employs a lightweight, efficiently trained prefix-tuner to extract dynamic Visual-Evidence Weights, which quantify the evidentiary support for candidate tokens based on the visual input. These weights guide an adaptive vocabulary partitioning and logits perturbation mechanism, concentrating watermark strength specifically on visually-supported tokens. By actively aligning the watermark with visual evidence, VISA-Mark effectively maintains visual fidelity. Empirical results confirm that VISA-Mark outperforms conventional methods with a 7.8% improvement in visual consistency (Chair-I) and superior semantic fidelity. The framework maintains highly competitive detection accuracy (96.88% AUC) and robust attack resilience (99.3%) without sacrificing inference efficiency, effectively establishing a new standard for reliability-preserving multimodal watermarking.


翻译:水印技术已成为大规模视觉语言模型内容溯源与知识产权保护的关键解决方案。然而,视觉无关水印会引入视觉无关的标记,并通过施加无差别的伪随机偏差破坏视觉基础;而部分语义感知方法因拒绝采样导致推理延迟过高。本文提出视觉语义自适应水印框架,该创新框架在严格保持视觉保真度的同时嵌入可检测信号。本方法采用轻量级高效训练的前缀调优器提取动态视觉证据权重,该权重基于视觉输入量化候选标记的证据支持度。这些权重引导自适应词汇划分与对数扰动机制,将水印强度集中作用于视觉支持的标记。通过主动将水印与视觉证据对齐,VISA-Mark有效保持了视觉保真度。实证结果表明:VISA-Mark在视觉一致性指标上较传统方法提升7.8%,并具有更优的语义保真度;该框架在保持推理效率的同时,实现了极具竞争力的检测准确率和鲁棒的抗攻击能力,为可靠性保持的多模态水印技术确立了新标准。

0
下载
关闭预览

相关内容

面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
49+阅读 · 2024年4月12日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
专知会员服务
28+阅读 · 2021年7月16日
对抗攻击之利用水印生成对抗样本
计算机视觉life
10+阅读 · 2020年9月27日
自注意力机制在计算机视觉中的应用
GAN生成式对抗网络
19+阅读 · 2018年12月20日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
NLP中自动生产文摘(auto text summarization)
机器学习研究会
14+阅读 · 2017年10月10日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
面向 AI 生成图像的安全与鲁棒水印:全面综述
专知会员服务
14+阅读 · 2025年10月6日
大语言模型与视觉模型中的幻觉现象理解综述
专知会员服务
21+阅读 · 2025年10月2日
在无标注条件下适配视觉—语言模型:全面综述
专知会员服务
13+阅读 · 2025年8月9日
扩散模型时代的可视水印:进展与挑战
专知会员服务
7+阅读 · 2025年5月17日
大规模视觉-语言模型的基准、评估、应用与挑战
专知会员服务
18+阅读 · 2025年2月10日
探索视觉语言模型的前沿:当前方法和未来方向的综述
专知会员服务
49+阅读 · 2024年4月12日
大模型时代下的文本水印综述
专知会员服务
35+阅读 · 2024年1月26日
面向语义搜索的自然语言处理
专知会员服务
60+阅读 · 2021年12月18日
专知会员服务
28+阅读 · 2021年7月16日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员