Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning - 专知论文

会员服务 ·

0

视频 · 标量 · 微调 · 数据集 · 奖励模型 ·

Diffusion-DRF: Free, Rich, and Differentiable Reward for Video Diffusion Fine-Tuning

翻译：扩散-DRF：用于视频扩散微调的自由、丰富且可微分的奖励

Yifan Wang,Yanyu Li,Gordon Guocheng Qian,Sergey Tulyakov,Yun Fu,Anil Kag

from arxiv, Webpage: https://snap-research.github.io/diffusion-drf/

Video diffusion alignment has been heavily relied on scalar rewards. These rewards are typically derived from learned reward models in human preference datasets, requiring additional training and extensive collection. Moreover, scalar rewards provide coarse, global supervision, offering limited prompt-generation mismatch credit assignment and making models prone to reward exploitation and unstable optimization. We propose Diffusion-DRF, a free, rich, and differentiable reward framework for video diffusion fine-tuning. Diffusion-DRF employs a frozen, off-the-shelf Vision-Language Model (VLM) as the critic, eliminating the need for reward model training. Instead of relying on a single scalar reward, it decomposes each user prompt into multi-dimensional questions with freeform dense VQA explanation queries, yielding information-rich feedback. By direct differentiable optimization over this rich feedback, Diffusion-DRF achieves stable reward-based tuning without preference datasets collection. Diffusion-DRF achieves significant gains both quantitatively and qualitatively, outperforming state-of-the-art Flow-GRPO by 4.74% in overall performance on unseen VBench-2.0.

翻译：视频扩散对齐长期以来严重依赖标量奖励。这些奖励通常从人类偏好数据集中的学习奖励模型获得，需要额外训练和大量数据收集。此外，标量奖励提供的是粗糙的全局监督，对提示-生成不匹配的信用分配有限，使得模型容易受到奖励利用和不稳定优化的影响。我们提出了扩散-DRF，一种用于视频扩散微调的自由、丰富且可微分的奖励框架。扩散-DRF采用一个冻结的、现成的视觉语言模型作为评判器，无需奖励模型训练。它不依赖单一标量奖励，而是将每个用户提示分解为具有自由形式密集视觉问答解释查询的多维度问题，从而产生信息丰富的反馈。通过对这种丰富反馈进行直接可微分优化，扩散-DRF实现了无需偏好数据集收集的稳定基于奖励的调优。扩散-DRF在定量和定性评估中均取得显著提升，在未见过的VBench-2.0基准测试中，整体性能优于当前最先进的Flow-GRPO方法4.74%。

0

相关内容

视频

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

专知会员服务

10+阅读 · 2025年9月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

视频扩散模型综述：基础、实现与应用

视频扩散模型综述：基础、实现与应用

专知会员服务

13+阅读 · 2025年4月24日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

专知会员服务

21+阅读 · 2024年10月25日

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

44+阅读 · 2024年7月20日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

DRN - 扩张残留网络（图像分类和语义分割）

DRN - 扩张残留网络（图像分类和语义分割）

AI科技评论

18+阅读 · 2019年8月19日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Arxiv

0+阅读 · 3月16日

Diffusion Reinforcement Learning via Centered Reward Distillation

Arxiv

0+阅读 · 3月14日

Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models

Arxiv

0+阅读 · 3月3日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Arxiv

0+阅读 · 2月11日

From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models

Arxiv

0+阅读 · 2月11日

Survey of Video Diffusion Models: Foundations, Implementations, and Applications

Arxiv

0+阅读 · 2月10日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

Arxiv

0+阅读 · 2月3日

F-scheduler: illuminating the free-lunch design space for fast sampling of diffusion models

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

2+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

4+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

2+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

10+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

11+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

4+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

5+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

7+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

17+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

4+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

【ICCV2025】InfGen：一种分辨率无关的可扩展图像合成范式

专知会员服务

10+阅读 · 2025年9月15日

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

如何理解扩散模型？ICML2025最新《利用扩散模型中的低维性：从理论到实践》。300页ppt

专知会员服务

59+阅读 · 2025年7月20日

医学影像中的高效扩散模型：全面综述

医学影像中的高效扩散模型：全面综述

专知会员服务

15+阅读 · 2025年5月26日

视频扩散模型综述：基础、实现与应用

视频扩散模型综述：基础、实现与应用

专知会员服务

13+阅读 · 2025年4月24日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

训练扩散模型比你想象的更简单！谢赛宁老师：Representation matters！

专知会员服务

21+阅读 · 2024年10月25日

基于强化学习的扩散模型微调：教程与综述

基于强化学习的扩散模型微调：教程与综述

专知会员服务

44+阅读 · 2024年7月20日

扩散模型概述：应用、引导生成、统计率和优化

扩散模型概述：应用、引导生成、统计率和优化

专知会员服务

47+阅读 · 2024年4月14日

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

NLP+Diffusion=？UMN最新《NLP中的扩散模型》综述，全面阐述离散和嵌入扩散模型方法

专知会员服务

54+阅读 · 2023年5月26日

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

大“火”的扩散模型综述又一弹！UCF等《视觉扩散模型》综述，20页pdf详述三种通用的扩散建模框架

专知会员服务

87+阅读 · 2022年9月13日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

【ICML2020】多视角对比图表示学习，Contrastive Multi-View GRL

专知

37+阅读 · 2020年6月11日

【牛津大学&DeepMind】自监督学习教程，141页ppt

【牛津大学&DeepMind】自监督学习教程，141页ppt

专知

16+阅读 · 2020年5月29日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

DRN - 扩张残留网络（图像分类和语义分割）

DRN - 扩张残留网络（图像分类和语义分割）

AI科技评论

18+阅读 · 2019年8月19日

Dropout到底在干啥？看完这篇文章，你就知道了

Dropout到底在干啥？看完这篇文章，你就知道了

专知

25+阅读 · 2019年5月2日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

学界 | FAIR提出用聚类方法结合卷积网络，实现无监督端到端图像分类

机器之心

11+阅读 · 2018年8月6日

相关论文

Tri-Prompting: Video Diffusion with Unified Control over Scene, Subject, and Motion

Arxiv

0+阅读 · 3月16日

Diffusion Reinforcement Learning via Centered Reward Distillation

Arxiv

0+阅读 · 3月14日

Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models

Arxiv

0+阅读 · 3月3日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Arxiv

0+阅读 · 2月11日

From Preferences to Prejudice: The Role of Alignment Tuning in Shaping Social Bias in Video Diffusion Models

Arxiv

0+阅读 · 2月11日

Survey of Video Diffusion Models: Foundations, Implementations, and Applications

Arxiv

0+阅读 · 2月10日

DisCa: Accelerating Video Diffusion Transformers with Distillation-Compatible Learnable Feature Caching

Arxiv

0+阅读 · 2月5日

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment

Arxiv

0+阅读 · 2月3日

F-scheduler: illuminating the free-lunch design space for fast sampling of diffusion models

Arxiv

0+阅读 · 1月31日

相关基金

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络图像标注中多视图半监督稀疏特征选择算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于尺度集的高分辨率遥感影像多尺度分类

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

扩散过程离散化形式下的若干统计问题的大偏差原理

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于组合Hodge理论的图像视频质量评价方法

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员