Latent-Mark: An Audio Watermark Robust to Neural Resynthesis - 专知论文

会员服务 ·

0

解码 · 潜在 · 编解码 · 编解码器 · 鲁棒 ·

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

翻译：潜在标记：一种对神经重合成鲁棒的音频水印技术

Yen-Shan Chen,Shih-Yu Lai,Ying-Jung Tsou,Yi-Cheng Lin,Bing-Yu Chen,Yun-Nung Chen,Hung-yi Lee,Shang-Tse Chen

While existing audio watermarking techniques have achieved strong robustness against traditional digital signal processing (DSP) attacks, they remain vulnerable to neural resynthesis. This occurs because modern neural audio codecs act as semantic filters and discard the imperceptible waveform variations used in prior watermarking methods. To address this limitation, we propose Latent-Mark, the first zero-bit audio watermarking framework designed to survive semantic compression. Our key insight is that robustness to the encode-decode process requires embedding the watermark within the codec's invariant latent space. We achieve this by optimizing the audio waveform to induce a detectable directional shift in its encoded latent representation, while constraining perturbations to align with the natural audio manifold to ensure imperceptibility. To prevent overfitting to a single codec's quantization rules, we introduce Cross-Codec Optimization, jointly optimizing the waveform across multiple surrogate codecs to target shared latent invariants. Extensive evaluations demonstrate robust zero-shot transferability to unseen neural codecs, achieving state-of-the-art resilience against traditional DSP attacks while preserving perceptual imperceptibility. Our work inspires future research into universal watermarking frameworks capable of maintaining integrity across increasingly complex and diverse generative distortions.

翻译：尽管现有的音频水印技术在对抗传统数字信号处理攻击方面已展现出强大的鲁棒性，但它们仍然容易受到神经重合成的影响。这是因为现代神经音频编解码器充当了语义过滤器，丢弃了先前水印方法所依赖的不可感知的波形变化。为解决这一局限，我们提出了Latent-Mark，这是首个旨在语义压缩下存活的零比特音频水印框架。我们的核心见解是：要实现对编码-解码过程的鲁棒性，需要将水印嵌入到编解码器的不变潜在空间中。我们通过优化音频波形，使其在编码后的潜在表示中产生可检测的方向性偏移来实现这一点，同时约束扰动以对齐自然音频流形，从而确保不可感知性。为防止对单一编解码器量化规则的过拟合，我们引入了跨编解码器优化，在多个代理编解码器上联合优化波形，以针对共享的潜在不变量。广泛的评估证明了其对未见过的神经编解码器具有鲁棒的零样本可迁移性，在保持感知不可察觉性的同时，实现了对传统DSP攻击的最先进抗性。我们的工作启发了未来对通用水印框架的研究，这些框架能够在日益复杂和多样化的生成式失真中保持完整性。

0

相关内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

专知会员服务

35+阅读 · 2024年1月13日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【NeurIPS 2020】视觉注意力神经编码

【NeurIPS 2020】视觉注意力神经编码

专知会员服务

42+阅读 · 2020年10月4日

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

Jupyter Notebook的三大短板，都被这个新工具补齐了

Jupyter Notebook的三大短板，都被这个新工具补齐了

量子位

71+阅读 · 2018年9月10日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

DeepType：用神经分类系统自动实现实体消歧

DeepType：用神经分类系统自动实现实体消歧

论智

20+阅读 · 2018年2月9日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信信号中的隐蔽信息传输机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于全数字化的闪烁脉冲时间标记

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

Arxiv

0+阅读 · 3月13日

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

Arxiv

0+阅读 · 3月10日

mAVE: A Watermark for Joint Audio-Visual Generation Models

Arxiv

0+阅读 · 3月7日

Decoupling Defense Strategies for Robust Image Watermarking

Arxiv

0+阅读 · 2月23日

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

Arxiv

0+阅读 · 2月18日

MarkSweep: A No-box Removal Attack on AI-Generated Image Watermarking via Noise Intensification and Frequency-aware Denoising

Arxiv

0+阅读 · 2月17日

TriniMark: A Robust Generative Speech Watermarking Method for Trinity-Level Traceability

Arxiv

0+阅读 · 2月15日

ALIEN: Analytic Latent Watermarking for Controllable Generation

Arxiv

0+阅读 · 2月5日

MarkCleaner: High-Fidelity Watermark Removal via Imperceptible Micro-Geometric Perturbation

Arxiv

0+阅读 · 2月2日

VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

专知会员服务

1+阅读 · 5月1日

《图世界模型：概念、分类体系与未来方向》

《图世界模型：概念、分类体系与未来方向》

专知会员服务

3+阅读 · 5月1日

Palantir AIP平台：连接智能体与决策

Palantir AIP平台：连接智能体与决策

专知会员服务

10+阅读 · 5月1日

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

专知会员服务

4+阅读 · 5月1日

《通用基于模型的系统工程交会与接近操作任务规划器》130页

《通用基于模型的系统工程交会与接近操作任务规划器》130页

专知会员服务

5+阅读 · 5月1日

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

对ARL-TR-9623报告《人机自主协同团队信任工具包（HAT³）软件开发文档与用户指南》的增补材料

专知会员服务

5+阅读 · 5月1日

《美海军软件测试战略》90页slides

《美海军软件测试战略》90页slides

专知会员服务

9+阅读 · 5月1日

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

7+阅读 · 4月30日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

6+阅读 · 4月30日

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

9+阅读 · 4月30日

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

18+阅读 · 4月30日

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

7+阅读 · 4月30日

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

12+阅读 · 4月30日

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

8+阅读 · 4月30日

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

9+阅读 · 4月29日

相关VIP内容

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

面向 AI 生成图像的安全与鲁棒水印：全面综述

面向 AI 生成图像的安全与鲁棒水印：全面综述

专知会员服务

14+阅读 · 2025年10月6日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

NeurIPS 2023｜LLM给CLIP加buff了！LaCLIP：利用大模型重写文本改进 CLIP 训练

专知会员服务

35+阅读 · 2024年1月13日

【CVPR2023】面向不同视频的可扩展神经表示，

【CVPR2023】面向不同视频的可扩展神经表示，

专知会员服务

20+阅读 · 2023年3月28日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【NeurIPS2021】NeRV:视频的神经表示

【NeurIPS2021】NeRV:视频的神经表示

专知会员服务

12+阅读 · 2021年10月28日

人工智能模型水印研究综述

专知会员服务

28+阅读 · 2021年7月16日

微软《神经语音合成》综述论文，63页pdf530篇文献

微软《神经语音合成》综述论文，63页pdf530篇文献

专知会员服务

30+阅读 · 2021年7月3日

【NeurIPS 2020】视觉注意力神经编码

【NeurIPS 2020】视觉注意力神经编码

专知会员服务

42+阅读 · 2020年10月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《图世界模型：概念、分类体系与未来方向》

《应急响应数字孪生：整合增强现实与实时位置数据的模拟辅助决策》技术报告

【博士论文】迈向可靠神经网络：基于物理结构与贝叶斯不确定性

Palantir AIP平台：连接智能体与决策

相关资讯

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

论文推荐丨[ICML2020]用于图像到标记符号生成的树状结构解码器

专知

64+阅读 · 2020年7月31日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

Jupyter Notebook的三大短板，都被这个新工具补齐了

Jupyter Notebook的三大短板，都被这个新工具补齐了

量子位

71+阅读 · 2018年9月10日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

学界 | 现实版柯南「蝴蝶结变声器」：谷歌发布从声纹识别到多重声线语音合成的迁移学习

机器之心

11+阅读 · 2018年6月24日

FaceForensics：一个用于人脸伪造检测的大型视频数据集

FaceForensics：一个用于人脸伪造检测的大型视频数据集

论智

18+阅读 · 2018年4月14日

DeepType：用神经分类系统自动实现实体消歧

DeepType：用神经分类系统自动实现实体消歧

论智

20+阅读 · 2018年2月9日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

一文看懂深度学习在语音合成&增强上的应用

一文看懂深度学习在语音合成&增强上的应用

数盟

11+阅读 · 2017年9月13日

相关论文

SLICE: Semantic Latent Injection via Compartmentalized Embedding for Image Watermarking

Arxiv

0+阅读 · 3月13日

ShapeMark: Robust and Diversity-Preserving Watermarking for Diffusion Models

Arxiv

0+阅读 · 3月10日

mAVE: A Watermark for Joint Audio-Visual Generation Models

Arxiv

0+阅读 · 3月7日

Decoupling Defense Strategies for Robust Image Watermarking

Arxiv

0+阅读 · 2月23日

How to Label Resynthesized Audio: The Dual Role of Neural Audio Codecs in Audio Deepfake Detection

Arxiv

0+阅读 · 2月18日

MarkSweep: A No-box Removal Attack on AI-Generated Image Watermarking via Noise Intensification and Frequency-aware Denoising

Arxiv

0+阅读 · 2月17日

TriniMark: A Robust Generative Speech Watermarking Method for Trinity-Level Traceability

Arxiv

0+阅读 · 2月15日

ALIEN: Analytic Latent Watermarking for Controllable Generation

Arxiv

0+阅读 · 2月5日

MarkCleaner: High-Fidelity Watermark Removal via Imperceptible Micro-Geometric Perturbation

Arxiv

0+阅读 · 2月2日

VocBulwark: Towards Practical Generative Speech Watermarking via Additional-Parameter Injection

Arxiv

0+阅读 · 1月30日

相关基金

基于程序多模态的动态软件水印方法研究

国家自然科学基金

0+阅读 · 2017年12月31日

基于非对称扩展的可逆水印研究

国家自然科学基金

0+阅读 · 2015年12月31日

时频双选水声信道下高谱效OQAM-OFDM通信的关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

通信信号中的隐蔽信息传输机理研究

国家自然科学基金

1+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

基于全数字化的闪烁脉冲时间标记

国家自然科学基金

1+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

矢量地图数据的非对称数字水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼视觉特性与ASIFT的多尺度变换域视频水印算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员