Video diffusion alignment has been heavily relied on scalar rewards. These rewards are typically derived from learned reward models in human preference datasets, requiring additional training and extensive collection. Moreover, scalar rewards provide coarse, global supervision, offering limited prompt-generation mismatch credit assignment and making models prone to reward exploitation and unstable optimization. We propose Diffusion-DRF, a free, rich, and differentiable reward framework for video diffusion fine-tuning. Diffusion-DRF employs a frozen, off-the-shelf Vision-Language Model (VLM) as the critic, eliminating the need for reward model training. Instead of relying on a single scalar reward, it decomposes each user prompt into multi-dimensional questions with freeform dense VQA explanation queries, yielding information-rich feedback. By direct differentiable optimization over this rich feedback, Diffusion-DRF achieves stable reward-based tuning without preference datasets collection. Diffusion-DRF achieves significant gains both quantitatively and qualitatively, outperforming state-of-the-art Flow-GRPO by 4.74% in overall performance on unseen VBench-2.0.


翻译:视频扩散对齐长期以来严重依赖标量奖励。这些奖励通常从人类偏好数据集中的学习奖励模型获得,需要额外训练和大量数据收集。此外,标量奖励提供的是粗糙的全局监督,对提示-生成不匹配的信用分配有限,使得模型容易受到奖励利用和不稳定优化的影响。我们提出了扩散-DRF,一种用于视频扩散微调的自由、丰富且可微分的奖励框架。扩散-DRF采用一个冻结的、现成的视觉语言模型作为评判器,无需奖励模型训练。它不依赖单一标量奖励,而是将每个用户提示分解为具有自由形式密集视觉问答解释查询的多维度问题,从而产生信息丰富的反馈。通过对这种丰富反馈进行直接可微分优化,扩散-DRF实现了无需偏好数据集收集的稳定基于奖励的调优。扩散-DRF在定量和定性评估中均取得显著提升,在未见过的VBench-2.0基准测试中,整体性能优于当前最先进的Flow-GRPO方法4.74%。

0
下载
关闭预览

相关内容

【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
视频扩散模型综述:基础、实现与应用
专知会员服务
13+阅读 · 2025年4月24日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
44+阅读 · 2024年7月20日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
DRN - 扩张残留网络(图像分类和语义分割)
AI科技评论
18+阅读 · 2019年8月19日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
2+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
3+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
2+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
11+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
5+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
4+阅读 · 4月19日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员