Temporal Difference Learning for Diffusion Models - 专知论文

会员服务 ·

0

去噪 · 一致 · TD · 差分 · 差分学习 ·

Temporal Difference Learning for Diffusion Models

翻译：时间差分学习用于扩散模型

Qizhen Ying,Yangchen Pan,Victor Adrian Prisacariu,Junfeng Wen

from arxiv, 15 pages, 4 figures. Accepted at ICML 2026

Diffusion models are typically trained with objectives that focus on local denoising targets at individual time steps (or adjacent pairs), which do not enforce consistency between predictions along the denoising trajectory. This lack of cross-time consistency can degrade performance, especially for few-step samplers. We introduce a temporal difference (TD) objective that penalizes inconsistency of the model's multi-step progress along the denoising path. By reformulating the diffusion process as a Markov reward process and casting denoising as a policy evaluation problem in reinforcement learning, we derive a unified TD approach that applies to both discrete- and continuous-time diffusion formulations. We further propose a principled sample-based reweighting method that stabilizes training. Empirically, we show that using our TD training can significantly improve sample quality measured by FID, with stronger advantages when the number of sampling steps is small, highlighting its practical utility under low-computation-budget scenarios. We provide ablation studies to justify our design choices, including pairwise loss reweighting, regularization weight, and one-step stride. Overall, our TD approach can be a general drop-in that enforces cross-time consistency and improves generation quality across different diffusion generative models.

翻译：扩散模型通常通过聚焦于单个时间步（或相邻步）的局部去噪目标进行训练，这种做法并未强制要求在去噪轨迹上预测的一致性。这种跨时间一致性的缺失会降低模型性能，尤其是在少步采样器中。我们提出一种时间差分（TD）目标函数，通过惩罚模型沿去噪路径的多步进展不一致性来解决此问题。通过将扩散过程重新表述为马尔可夫奖励过程，并将去噪视为强化学习中的策略评估问题，我们推导出一种统一的TD方法，可同时适用于离散时间和连续时间扩散公式。此外，我们提出一种基于样本的原则性重加权方法以稳定训练。实验表明，使用我们的TD训练能显著提升由FID衡量的样本质量，且在采样步数较少时优势更为突出，凸显其在低计算预算场景下的实用价值。我们通过消融研究验证了设计选择的合理性，包括成对损失重加权、正则化权重及单步跨度。总体而言，我们的TD方法可作为一种通用即插即用模块，通过强制跨时间一致性来提升各类扩散生成模型的生成质量。

0

相关内容

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

用于强化学习的扩散模型：基础、分类与发展

用于强化学习的扩散模型：基础、分类与发展

专知会员服务

24+阅读 · 2025年10月15日

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

30+阅读 · 2025年7月22日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

时间序列和时空数据扩散模型综述

时间序列和时空数据扩散模型综述

专知会员服务

64+阅读 · 2024年5月1日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

84+阅读 · 2023年11月3日

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

专知会员服务

64+阅读 · 2022年11月19日

视觉的有效扩散模型综述

视觉的有效扩散模型综述

专知会员服务

97+阅读 · 2022年10月20日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月16日

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月14日

A theory of learning data statistics in diffusion models, from easy to hard

Arxiv

1+阅读 · 6月10日

The Emergence of Reproducibility and Generalizability in Diffusion Models

Arxiv

0+阅读 · 6月9日

Diffusion Models Observe Only Gradients: A Geometric Perspective on Score Matching Errors

Arxiv

0+阅读 · 6月4日

The Entropic Signature of Class Speciation in Diffusion Models

Arxiv

0+阅读 · 6月1日

Diffusion Models Are Statistically Optimal for Learning Low-Dimensional Multi-Modal Distributions

Arxiv

0+阅读 · 5月28日

Forward-Learned Discrete Diffusion: Learning how to noise to denoise faster

Arxiv

0+阅读 · 5月18日

Training data attribution in diffusion models via mirrored unlearning and noise-consistent skew

Arxiv

0+阅读 · 5月18日

On the Limits of Latent Reuse in Diffusion Models

Arxiv

0+阅读 · 5月13日

VIP会员

文章信息

相关主题

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 今天4:35

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

3+阅读 · 今天4:24

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 今天4:18

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 今天4:15

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 今天4:08

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

【AAAI2026】《SimDiff：用于时间序列点预测的更简单但更优的扩散模型》

专知会员服务

14+阅读 · 2025年11月25日

用于强化学习的扩散模型：基础、分类与发展

用于强化学习的扩散模型：基础、分类与发展

专知会员服务

24+阅读 · 2025年10月15日

用于时间序列预测的扩散模型：综述

用于时间序列预测的扩散模型：综述

专知会员服务

30+阅读 · 2025年7月22日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

时间序列和时空数据扩散模型综述

时间序列和时空数据扩散模型综述

专知会员服务

64+阅读 · 2024年5月1日

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

扩散模型和强化学习如何结合？上交最新《强化学习中的扩散模型》综述

专知会员服务

84+阅读 · 2023年11月3日

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

扩撒模型如何用在医学上？最新《扩散模型医学图像分析》综述，25页pdf全面阐述医学图像扩散模型方法体系

专知会员服务

64+阅读 · 2022年11月19日

视觉的有效扩散模型综述

视觉的有效扩散模型综述

专知会员服务

97+阅读 · 2022年10月20日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

【ICML2020投稿论文-DeepMind】时序差分学习的推理与泛化，Temporal Difference Learning

专知会员服务

26+阅读 · 2020年3月16日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

PyTorch 深度剖析：如何使用模型并行技术（Model Parallel）

极市平台

11+阅读 · 2021年11月18日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

图上的归纳表示学习

图上的归纳表示学习

科技创新与创业

23+阅读 · 2017年11月9日

相关论文

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月16日

Variational Test-time Optimization for Diffusion Synchronization

Arxiv

0+阅读 · 6月14日

A theory of learning data statistics in diffusion models, from easy to hard

Arxiv

1+阅读 · 6月10日

The Emergence of Reproducibility and Generalizability in Diffusion Models

Arxiv

0+阅读 · 6月9日

Diffusion Models Observe Only Gradients: A Geometric Perspective on Score Matching Errors

Arxiv

0+阅读 · 6月4日

The Entropic Signature of Class Speciation in Diffusion Models

Arxiv

0+阅读 · 6月1日

Diffusion Models Are Statistically Optimal for Learning Low-Dimensional Multi-Modal Distributions

Arxiv

0+阅读 · 5月28日

Forward-Learned Discrete Diffusion: Learning how to noise to denoise faster

Arxiv

0+阅读 · 5月18日

Training data attribution in diffusion models via mirrored unlearning and noise-consistent skew

Arxiv

0+阅读 · 5月18日

On the Limits of Latent Reuse in Diffusion Models

Arxiv

0+阅读 · 5月13日

相关基金

一类离散Hindmarsh-Rose模型的分支延拓

国家自然科学基金

0+阅读 · 2015年12月31日

基于调度协议的离散系统网络控制：时滞系统方法

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏信号驱动的时间序列信号盲分离优化模型及算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

超线性增长条件下的混杂型随机时滞微分方程

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶扩散方程反向问题的正则化理论与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员