Diffusion based generative models have achieved unprecedented fidelity in synthesizing high dimensional data, yet the theoretical mechanisms governing multimodal generation remain poorly understood. Here, we present a theoretical framework for coupled diffusion models, using coupled Ornstein-Uhlenbeck processes as a tractable model. By using the nonequilibrium statistical physics of dynamical phase transitions, we demonstrate that multimodal generation is governed by a spectral hierarchy of interaction timescales rather than simultaneous resolution. A key prediction is the ``synchronization gap'', a temporal window during the reverse generative process where distinct eigenmodes stabilize at different rates, providing a theoretical explanation for common desynchronization artifacts. We derive analytical conditions for speciation and collapse times under both symmetric and anisotropic coupling regimes, establishing strict bounds for coupling strength to avoid unstable symmetry breaking. We show that the coupling strength acts as a spectral filter that enforces a tunable temporal hierarchy on generation. We support these predictions through controlled experiments with diffusion models trained on MNIST datasets and exact score samplers. These results motivate time dependent coupling schedules that target mode specific timescales, offering a potential alternative to ad hoc guidance tuning.


翻译:基于扩散的生成模型在合成高维数据方面达到了前所未有的保真度,然而支配多模态生成的理论机制仍知之甚少。本文提出了一个耦合扩散模型的理论框架,使用耦合的Ornstein-Uhlenbeck过程作为一个可处理的模型。通过运用非平衡统计物理中的动力学相变理论,我们证明了多模态生成是由相互作用时间尺度的谱层次结构所支配,而非同步解析。一个关键的预测是“同步间隙”,即在反向生成过程中的一个时间窗口,其中不同的本征模态以不同的速率稳定下来,这为常见的去同步伪影提供了理论解释。我们推导了在对称和各向异性耦合机制下物种形成时间和坍缩时间的解析条件,为耦合强度建立了严格的界限以避免不稳定的对称性破缺。我们证明,耦合强度充当了一个谱滤波器,对生成过程施加了一个可调的时间层次结构。我们通过在MNIST数据集上训练的扩散模型和精确得分采样器进行的受控实验支持了这些预测。这些结果启发了针对模态特定时间尺度的时间依赖性耦合调度方案,为临时的引导调优提供了一种潜在的替代方案。

0
下载
关闭预览

相关内容

扩散模型中的缓存方法综述:迈向高效的多模态生成
专知会员服务
8+阅读 · 2025年10月23日
统一的多模态理解与生成模型:进展、挑战与机遇
专知会员服务
31+阅读 · 2025年5月6日
扩散模型中的注意力机制:综述
专知会员服务
24+阅读 · 2025年4月10日
高效扩散模型:从原理到实践的全面综述
专知会员服务
41+阅读 · 2024年10月16日
多模态可控扩散模型综述
专知会员服务
39+阅读 · 2024年7月20日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
详解扩散模型:从DDPM到稳定扩散,附Slides与视频
专知会员服务
87+阅读 · 2022年10月9日
【工大SCIR笔记】多模态信息抽取简述
深度学习自然语言处理
19+阅读 · 2020年4月3日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 1月28日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员