Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models - 专知论文

会员服务 ·

0

潜在 · 扰动 · 方差 · 损失 · 重建 ·

Taming Sampling Perturbations with Variance Expansion Loss for Latent Diffusion Models

翻译：驯服采样扰动：面向潜在扩散模型的方差扩展损失

Qifan Li,Xingyu Zhou,Jinhua Zhang,Weiyi You,Shuhang Gu

from arxiv, Accepted to CVPR 2026

Latent diffusion models have emerged as the dominant framework for high-fidelity and efficient image generation, owing to their ability to learn diffusion processes in compact latent spaces. However, while previous research has focused primarily on reconstruction accuracy and semantic alignment of the latent space, we observe that another critical factor, robustness to sampling perturbations, also plays a crucial role in determining generation quality. Through empirical and theoretical analyses, we show that the commonly used $β$-VAE-based tokenizers in latent diffusion models, tend to produce overly compact latent manifolds that are highly sensitive to stochastic perturbations during diffusion sampling, leading to visual degradation. To address this issue, we propose a simple yet effective solution that constructs a latent space robust to sampling perturbations while maintaining strong reconstruction fidelity. This is achieved by introducing a Variance Expansion loss that counteracts variance collapse and leverages the adversarial interplay between reconstruction and variance expansion to achieve an adaptive balance that preserves reconstruction accuracy while improving robustness to stochastic sampling. Extensive experiments demonstrate that our approach consistently enhances generation quality across different latent diffusion architectures, confirming that robustness in latent space is a key missing ingredient for stable and faithful diffusion sampling.

翻译：潜在扩散模型因其在紧凑潜在空间中学习扩散过程的能力，已成为高保真度与高效图像生成的主流框架。然而，尽管此前研究主要聚焦于潜在空间的重建精度与语义对齐，我们发现另一个关键因素——对采样扰动的鲁棒性——同样对生成质量起决定性作用。通过理论与实证分析，我们揭示潜在扩散模型中常用的基于β-VAE的令牌生成器，倾向于产生过度紧凑的潜在流形，这种流形对扩散采样过程中的随机扰动高度敏感，从而导致视觉质量退化。为解决该问题，我们提出一种简洁而有效的方案：在保持强重建保真度的同时，构建对采样扰动鲁棒的潜在空间。其核心在于引入一种方差扩展损失——该损失可抑制方差坍缩现象，并通过重建损失与方差扩展之间的对抗性博弈实现自适应平衡，从而在维持重建精度的同时提升对随机采样的鲁棒性。大量实验证明，本方法能持续提升不同潜在扩散架构的生成质量，证实潜在空间的鲁棒性正是实现稳定、保真扩散采样的关键缺失要素。

0

相关内容

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

扩散模型量化综述

扩散模型量化综述

专知会员服务

18+阅读 · 2025年5月11日

面向图像处理逆问题的扩散模型研究综述

面向图像处理逆问题的扩散模型研究综述

专知会员服务

16+阅读 · 2025年4月23日

高效扩散模型：从原理到实践的全面综述

高效扩散模型：从原理到实践的全面综述

专知会员服务

41+阅读 · 2024年10月16日

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

专知会员服务

17+阅读 · 2024年10月4日

《扩散模型图像编辑》综述

《扩散模型图像编辑》综述

专知会员服务

28+阅读 · 2024年2月28日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

专知会员服务

87+阅读 · 2022年10月9日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于潜变量迁移模型的复杂工业新过程实时优化方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

Latent Generative Modeling of Random Fields from Limited Training Data

Arxiv

0+阅读 · 4月30日

High-accuracy sampling for diffusion models and log-concave distributions

Arxiv

0+阅读 · 4月27日

On the Interpolation Effect of Score Smoothing in Diffusion Models

Arxiv

0+阅读 · 4月19日

Diffusion-Guided Adversarial Perturbation Injection for Generalizable Defense Against Facial Manipulations

Arxiv

0+阅读 · 4月2日

ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Redirection

Arxiv

0+阅读 · 4月1日

Non-Asymptotic Convergence of Discrete Diffusion Models: Masked and Random Walk dynamics

Arxiv

0+阅读 · 4月1日

The Information Dynamics of Generative Diffusion

Arxiv

0+阅读 · 3月26日

LGTM: Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation

Arxiv

0+阅读 · 3月25日

Spectrally-Guided Diffusion Noise Schedules

Arxiv

0+阅读 · 3月19日

Diffusion Models for Reinforcement Learning: A Survey

Arxiv

22+阅读 · 2023年11月2日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

扩散模型量化综述

扩散模型量化综述

专知会员服务

18+阅读 · 2025年5月11日

面向图像处理逆问题的扩散模型研究综述

面向图像处理逆问题的扩散模型研究综述

专知会员服务

16+阅读 · 2025年4月23日

高效扩散模型：从原理到实践的全面综述

高效扩散模型：从原理到实践的全面综述

专知会员服务

41+阅读 · 2024年10月16日

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

【NeurIPS2024】释放扩散模型在小样本语义分割中的潜力

专知会员服务

17+阅读 · 2024年10月4日

《扩散模型图像编辑》综述

《扩散模型图像编辑》综述

专知会员服务

28+阅读 · 2024年2月28日

【NeurIPS 2022】扩散模型的深度平衡方法

【NeurIPS 2022】扩散模型的深度平衡方法

专知会员服务

40+阅读 · 2022年11月5日

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

详解扩散模型：从DDPM到稳定扩散，附Slides与视频

专知会员服务

87+阅读 · 2022年10月9日

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

最近大火的“扩散模型”首篇综述来了！北大最新《扩散模型:方法和应用》综述，23页pdf涵盖200页文献

专知会员服务

155+阅读 · 2022年9月5日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

中山大学发布最新《图对抗机器学习》2020综述论文，带你全面了解40+种攻防对抗学习方法

专知

15+阅读 · 2020年3月13日

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

图像去噪的深度学习最新综述论文，36页pdf，Deep Learning on Image Denoising

专知

19+阅读 · 2020年1月6日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

对抗样本再下一城，攻陷目标检测！自动驾驶或受攻击？UIUC学者构建欺骗检测器的对抗样本！

专知

29+阅读 · 2017年12月12日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

FCS 论坛 | 孟德宇：误差建模原理

FCS 论坛 | 孟德宇：误差建模原理

FCS

15+阅读 · 2017年8月17日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Latent Generative Modeling of Random Fields from Limited Training Data

Arxiv

0+阅读 · 4月30日

High-accuracy sampling for diffusion models and log-concave distributions

Arxiv

0+阅读 · 4月27日

On the Interpolation Effect of Score Smoothing in Diffusion Models

Arxiv

0+阅读 · 4月19日

Diffusion-Guided Adversarial Perturbation Injection for Generalizable Defense Against Facial Manipulations

Arxiv

0+阅读 · 4月2日

ActErase: A Training-Free Paradigm for Precise Concept Erasure via Activation Redirection

Arxiv

0+阅读 · 4月1日

Non-Asymptotic Convergence of Discrete Diffusion Models: Masked and Random Walk dynamics

Arxiv

0+阅读 · 4月1日

The Information Dynamics of Generative Diffusion

Arxiv

0+阅读 · 3月26日

LGTM: Training-Free Light-Guided Text-to-Image Diffusion Model via Initial Noise Manipulation

Arxiv

0+阅读 · 3月25日

Spectrally-Guided Diffusion Noise Schedules

Arxiv

0+阅读 · 3月19日

Diffusion Models for Reinforcement Learning: A Survey

Arxiv

22+阅读 · 2023年11月2日

相关基金

基于潜变量迁移模型的复杂工业新过程实时优化方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多目标优化的约束模式挖掘方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

非参数核方法的样本外扩展研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于支撑函数的不规则形态扩展目标建模和估计研究

国家自然科学基金

0+阅读 · 2015年12月31日

复杂场景下目标跟踪的表观建模研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员