Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance - 专知论文

会员服务 ·

0

数据复制 · 音频生成 · 训练数据 · 扩散模型 · 片段 ·

Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance

翻译：缓解文本到音频生成扩散模型中的数据复制：通过反记忆化引导

Francisco Messina,Francesca Ronchini,Luca Comanducci,Paolo Bestagini,Fabio Antonacci

from arxiv, Accepted at ICASSP 2026

A persistent challenge in generative audio models is data replication, where the model unintentionally generates parts of its training data during inference. In this work, we address this issue in text-to-audio diffusion models by exploring the use of anti-memorization strategies. We adopt Anti-Memorization Guidance (AMG), a technique that modifies the sampling process of pre-trained diffusion models to discourage memorization. Our study explores three types of guidance within AMG, each designed to reduce replication while preserving generation quality. We use Stable Audio Open as our backbone, leveraging its fully open-source architecture and training dataset. Our comprehensive experimental analysis suggests that AMG significantly mitigates memorization in diffusion-based text-to-audio generation without compromising audio fidelity or semantic alignment.

翻译：生成式音频模型面临的一个持续挑战是数据复制问题，即模型在推理过程中无意地生成其训练数据的片段。本研究针对文本到音频扩散模型，通过探索反记忆化策略的应用来解决这一问题。我们采用反记忆化引导（AMG）技术，该技术通过修改预训练扩散模型的采样过程来抑制记忆化行为。我们的研究探索了AMG中的三种引导类型，每种均旨在减少数据复制的同时保持生成质量。我们以Stable Audio Open作为基础模型，利用其完全开源的架构和训练数据集。全面的实验分析表明，AMG能在不影响音频保真度或语义对齐的前提下，显著缓解基于扩散的文本到音频生成中的记忆化现象。

0

相关内容

数据复制

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

16+阅读 · 2025年4月30日

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

专知会员服务

8+阅读 · 2025年4月17日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

42+阅读 · 2023年3月16日

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

复现一篇深度强化学习论文之后，我学到了什么

复现一篇深度强化学习论文之后，我学到了什么

论智

16+阅读 · 2018年4月11日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Generative Audio Extension and Morphing

Arxiv

0+阅读 · 2月18日

Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens

Arxiv

0+阅读 · 2月18日

Token-Based Audio Inpainting via Discrete Diffusion

Token-Based Audio Inpainting via Discrete Diffusion

Arxiv

0+阅读 · 2月17日

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

Arxiv

0+阅读 · 2月17日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 2月10日

Structure-Guided Memory Consolidation for Mitigating Compounding Errors in Literature Review Generation

Arxiv

0+阅读 · 2月2日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 1月28日

Reconstruction-Anchored Diffusion Model for Text-to-Motion Generation

Arxiv

0+阅读 · 1月21日

Guided by the Plan: Enhancing Faithful Autoregressive Text-to-Audio Generation with Guided Decoding

Arxiv

0+阅读 · 1月18日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

VIP会员

文章信息

相关主题

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

4+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

6+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

4+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

3+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

10+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

7+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

5+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

3+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

7+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

3+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

3+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

7+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

6+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

11+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

5+阅读 · 4月20日

相关VIP内容

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

144页ppt《扩散模型》，Google DeepMind Sander Dieleman

专知会员服务

51+阅读 · 2025年11月21日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

用于语言生成的离散扩散模型

用于语言生成的离散扩散模型

专知会员服务

12+阅读 · 2025年7月10日

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

【CVPR2025】ShotAdapter：基于扩散模型的文本生成多镜头视频方法

专知会员服务

11+阅读 · 2025年5月16日

基于扩散模型和流模型的推理时引导生成技术

基于扩散模型和流模型的推理时引导生成技术

专知会员服务

16+阅读 · 2025年4月30日

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

【CVPR2025】概念护卫：具备遗忘与混淆缓解机制的持续个性化文本生成图像方法

专知会员服务

8+阅读 · 2025年4月17日

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

【博士论文】提高预训练文本生成音乐模型的可控性和可编辑性

专知会员服务

17+阅读 · 2024年11月20日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

英伟达斯坦福CVPR2023等最新《去噪扩散模型：生成学习的大爆炸》教程，附300多页ppt

专知会员服务

54+阅读 · 2023年6月27日

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

文本到图像扩散模型有何进展？KAIST最新《生成式人工智能中的文本到图像扩散模型》综述

专知会员服务

42+阅读 · 2023年3月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

最新《知识驱动的文本生成》综述论文，44页pdf

最新《知识驱动的文本生成》综述论文，44页pdf

专知

26+阅读 · 2020年10月14日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法

PaperWeekly

14+阅读 · 2019年3月18日

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

论文浅尝 | 基于深度强化学习的远程监督数据集的降噪

开放知识图谱

29+阅读 · 2019年1月17日

基于深度学习的文本生成【附217页PPT下载】

基于深度学习的文本生成【附217页PPT下载】

专知

35+阅读 · 2018年11月24日

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

【论文推荐】最新八篇视频描述生成相关论文—在线视频理解、联合定位和描述事件、生成视频、跨模态注意力机制、联合事件检测和描述

专知

11+阅读 · 2018年6月4日

复现一篇深度强化学习论文之后，我学到了什么

复现一篇深度强化学习论文之后，我学到了什么

论智

16+阅读 · 2018年4月11日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

Generative Audio Extension and Morphing

Arxiv

0+阅读 · 2月18日

Scaling Open Discrete Audio Foundation Models with Interleaved Semantic, Acoustic, and Text Tokens

Arxiv

0+阅读 · 2月18日

Token-Based Audio Inpainting via Discrete Diffusion

Token-Based Audio Inpainting via Discrete Diffusion

Arxiv

0+阅读 · 2月17日

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

AudioRAG+: Feedback-driven Retrieval-augmented Audio Generation with Large Audio Language Models

Arxiv

0+阅读 · 2月17日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 2月10日

Structure-Guided Memory Consolidation for Mitigating Compounding Errors in Literature Review Generation

Arxiv

0+阅读 · 2月2日

Detecting and Mitigating Memorization in Diffusion Models through Anisotropy of the Log-Probability

Arxiv

0+阅读 · 1月28日

Reconstruction-Anchored Diffusion Model for Text-to-Motion Generation

Arxiv

0+阅读 · 1月21日

Guided by the Plan: Enhancing Faithful Autoregressive Text-to-Audio Generation with Guided Decoding

Arxiv

0+阅读 · 1月18日

Confidence-based Filtering for Speech Dataset Curation with Generative Speech Enhancement Using Discrete Tokens

Arxiv

0+阅读 · 1月18日

相关基金

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

数字音频被动取证关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于记忆学习与免疫系统的仿生控制研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于发音特征的汉语语音识别分层解码方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

精神压力下基于物理模型的变异语音生成机理探索及检测方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于超小波和全局特征量的数字音频水印技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员