Pixel-space diffusion models are trained on full-bandwidth noisy images, yet the useful signal available to the denoiser is strongly frequency dependent. Under rectified-flow diffusion and natural-image power-law spectra, the per-band data-to-noise contour $k^{*}(t) = (1-t)^{-2/α}$ separates a signal-bearing low-frequency region from a noise-dominated high-frequency region at each time $t$. We show that this implicit coarse-to-fine structure is not merely descriptive: it induces a capacity-allocation problem. A standard pixel-space denoiser must discover the moving bandwidth boundary internally and can spend computation on frequency-time regions where the optimal prediction collapses to deterministic baselines rather than data-distribution modeling. To make this boundary explicit, we introduce Spectral Forcing, a parameter-free, time-conditional 2D-DCT low-pass operator applied to the noisy input before the patch embedder. Its cutoff expands monotonically with the diffusion time and becomes the identity at the data endpoint. Through controlled synthetic experiments, we identify the regime in which the operator is beneficial: coarse patch tokenization and data whose high-frequency content is predominantly noise rather than essential signal. On ImageNet-256 with JiT-700M/32, Spectral Forcing consistently improves both FID and Inception Score across different training epochs, demonstrating robust gains throughout training; at finer tokenization, the spectral forcing is still competitive. We further insert the unchanged operator into SenseNova-U1, a unified text-to-image model, where it improves DPG-Bench and GenEval, showing that the input-side spectral prior transfers beyond class-conditional generation. These results suggest a route to capacity-efficient pixel-space diffusion by showing the signal and hiding the noise.


翻译:像素空间扩散模型在满带宽噪声图像上进行训练,但去噪器可用的有效信号强烈依赖于频率。在整流流扩散和自然图像幂律谱下,每个时间步 $t$ 上的逐频带数据-噪声等高线 $k^{*}(t) = (1-t)^{-2/α}$ 将信号主导的低频区域与噪声主导的高频区域分开。我们证明这种隐式的由粗到细结构不仅仅是描述性的:它引发了容量分配问题。标准像素空间去噪器必须在内部发现移动的带宽边界,并且可能将计算资源花费在频-时区域上,其中最优预测退化为确定性基线,而非数据分布建模。为了使该边界显式化,我们引入了谱强制(Spectral Forcing),这是一种无参数、时间条件化的二维离散余弦变换(2D-DCT)低通算子,应用于补丁嵌入器之前的噪声输入。其截止频率随扩散时间单调扩展,并在数据端点处变为恒等算子。通过受控的合成实验,我们识别出该算子有益的适用场景:粗粒度的补丁分词化以及数据中高频内容主要为噪声而非必需信号的情况。在采用JiT-700M/32的ImageNet-256上,谱强制在不同训练周期内一致地改善了FID和Inception Score,展示了贯穿训练过程的稳健提升;在更细粒度的分词化下,谱强制仍具有竞争力。我们进一步将未经修改的算子插入统一文本到图像模型SenseNova-U1中,改善了DPG-Bench和GenEval指标,表明输入侧的谱先验能够迁移至类条件生成之外。这些结果通过“展示信号、隐藏噪声”的方式,为构建容量高效的像素空间扩散模型提供了一条路径。

0
下载
关闭预览

相关内容

《扩散模型图像编辑》综述
专知会员服务
28+阅读 · 2024年2月28日
去噪扩散概率模型,46页ppt
专知会员服务
63+阅读 · 2023年1月4日
专知会员服务
43+阅读 · 2021年8月30日
【AAAI2023】用于图对比学习的谱特征增强
专知
20+阅读 · 2022年12月11日
图像/视频去噪算法资源集锦
专知
19+阅读 · 2019年12月14日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
learn to see in the dark-低照度图像增强算法
计算机视觉life
16+阅读 · 2019年1月14日
python代码实现图片噪声去除
凡人机器学习
13+阅读 · 2018年5月18日
图像降噪算法介绍及实现汇总
极市平台
26+阅读 · 2018年1月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月28日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员