Video diffusion models (VDMs) have demonstrated remarkable capabilities in text-to-video (T2V) generation. Despite their success, VDMs still suffer from degraded image quality and flickering artifacts. To address these issues, some approaches have introduced preference learning to exploit human feedback to enhance the video generation. However, these methods primarily adopt the routine in the image domain without an in-depth investigation into video-specific preference optimization. In this paper, we reexamine the design of the video preference learning from two key aspects: feedback source and feedback tuning methodology, and present OnlineVPO, a more efficient preference learning framework tailored specifically for VDMs. On the feedback source, we found that the image-level reward model commonly used in existing methods fails to provide a human-aligned video preference signal due to the modality gap. In contrast, video quality assessment (VQA) models show superior alignment with human perception of video quality. Building on this insight, we propose leveraging VQA models as a proxy of humans to provide more modality-aligned feedback for VDMs. Regarding the preference tuning methodology, we introduce an online DPO algorithm tailored for VDMs. It not only enjoys the benefits of superior scalability in optimizing videos with higher resolution and longer duration compared with the existing method, but also mitigates the insufficient optimization issue caused by off-policy learning via online preference generation and curriculum preference update designs. Extensive experiments on the open-source video-diffusion model demonstrate OnlineVPO as a simple yet effective and, more importantly, scalable preference learning algorithm for video diffusion models.


翻译:视频扩散模型在文本到视频生成任务中展现出卓越能力。尽管取得了成功,现有模型仍存在图像质量下降与闪烁伪影等问题。为解决这些缺陷,部分研究引入偏好学习机制以利用人类反馈提升视频生成质量。然而,这些方法主要沿袭图像领域的常规范式,缺乏对视频特异性偏好优化的深入探索。本文从反馈源与反馈调优方法两个关键维度重新审视视频偏好学习的设计框架,提出专为视频扩散模型定制的高效偏好学习框架OnlineVPO。在反馈源方面,我们发现现有方法普遍采用的图像级奖励模型因模态差异而无法提供与人类对齐的视频偏好信号;相比之下,视频质量评估模型在视频质量感知方面展现出更优越的人类对齐特性。基于此洞见,我们提出利用VQA模型作为人类代理,为视频扩散模型提供更具模态一致性的反馈。在偏好调优方法层面,我们设计了面向视频扩散模型的在线DPO算法。该算法不仅具备卓越的可扩展性优势——能够优化更高分辨率与更长时长的视频(相较于现有方法),还通过在线偏好生成与课程化偏好更新设计,缓解了离策略学习导致的优化不足问题。在开源视频扩散模型上的大量实验表明,OnlineVPO是一种简洁高效且具备高度可扩展性的视频扩散模型偏好学习算法。

0
下载
关闭预览

相关内容

医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
复旦等最新《视频扩散模型》综述
专知会员服务
38+阅读 · 2023年10月20日
CVPR 2019 | 无监督领域特定单图像去模糊
PaperWeekly
14+阅读 · 2019年3月20日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月29日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
1+阅读 · 今天13:30
多智能体协作机制
专知会员服务
1+阅读 · 今天13:26
非对称优势:美海军开发低成本反无人机技术
专知会员服务
4+阅读 · 今天4:39
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
6+阅读 · 今天2:48
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
9+阅读 · 今天2:43
【NTU博士论文】3D人体动作生成
专知会员服务
7+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
8+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
14+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
10+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
5+阅读 · 4月24日
相关VIP内容
医学影像中的高效扩散模型:全面综述
专知会员服务
15+阅读 · 2025年5月26日
视频扩散模型综述:基础、实现与应用
专知会员服务
14+阅读 · 2025年4月24日
低层视觉中的扩散模型:综述
专知会员服务
22+阅读 · 2024年6月18日
视频扩散模型:综述
专知会员服务
38+阅读 · 2024年5月8日
复旦等最新《视频扩散模型》综述
专知会员服务
38+阅读 · 2023年10月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员