Video diffusion alignment has been heavily relied on scalar rewards. These rewards are typically derived from learned reward models in human preference datasets, requiring additional training and extensive collection. Moreover, scalar rewards provide coarse, global supervision, offering limited prompt-generation mismatch credit assignment and making models prone to reward exploitation and unstable optimization. We propose Diffusion-DRF, a free, rich, and differentiable reward framework for video diffusion fine-tuning. Diffusion-DRF employs a frozen, off-the-shelf Vision-Language Model (VLM) as the critic, eliminating the need for reward model training. Instead of relying on a single scalar reward, it decomposes each user prompt into multi-dimensional questions with freeform dense VQA explanation queries, yielding information-rich feedback. By direct differentiable optimization over this rich feedback, Diffusion-DRF achieves stable reward-based tuning without preference datasets collection. Diffusion-DRF achieves significant gains both quantitatively and qualitatively, outperforming state-of-the-art Flow-GRPO by 4.74% in overall performance on unseen VBench-2.0.


翻译:视频扩散对齐长期以来严重依赖标量奖励。这些奖励通常从人类偏好数据集中的学习奖励模型获得,需要额外训练和大量数据收集。此外,标量奖励提供的是粗糙的全局监督,对提示-生成不匹配的信用分配有限,使得模型容易受到奖励利用和不稳定优化的影响。我们提出了扩散-DRF,一种用于视频扩散微调的自由、丰富且可微分的奖励框架。扩散-DRF采用一个冻结的、现成的视觉语言模型作为评判器,无需奖励模型训练。它不依赖单一标量奖励,而是将每个用户提示分解为具有自由形式密集视觉问答解释查询的多维度问题,从而产生信息丰富的反馈。通过对这种丰富反馈进行直接可微分优化,扩散-DRF实现了无需偏好数据集收集的稳定基于奖励的调优。扩散-DRF在定量和定性评估中均取得显著提升,在未见过的VBench-2.0基准测试中,整体性能优于当前最先进的Flow-GRPO方法4.74%。

0
下载
关闭预览

相关内容

高效视频扩散模型:进展与挑战
专知会员服务
9+阅读 · 4月20日
【ICCV2025】InfGen:一种分辨率无关的可扩展图像合成范式
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
基于强化学习的扩散模型微调:教程与综述
专知会员服务
44+阅读 · 2024年7月20日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
DRN - 扩张残留网络(图像分类和语义分割)
AI科技评论
18+阅读 · 2019年8月19日
用 LDA 和 LSA 两种方法来降维和做 Topic 建模
AI研习社
13+阅读 · 2018年8月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员