Although GRPO substantially enhances flow matching models in human preference alignment of image generation, methods such as FlowGRPO and DanceGRPO still exhibit inefficiency due to the necessity of sampling and optimizing over all denoising steps specified by the Markov Decision Process (MDP). In this paper, we propose $\textbf{MixGRPO}$, a novel framework that leverages the flexibility of mixed sampling strategies through the integration of stochastic differential equations (SDE) and ordinary differential equations (ODE). This streamlines the optimization process within the MDP to improve efficiency and boost performance. Specifically, MixGRPO introduces a sliding window mechanism, using SDE sampling and GRPO-guided optimization only within the window, while applying ODE sampling outside. This design confines sampling randomness to the time-steps within the window, thereby reducing the optimization overhead, and allowing for more focused gradient updates to accelerate convergence. Additionally, as time-steps beyond the sliding window are not involved in optimization, higher-order solvers are supported for faster sampling. So we present a faster variant, termed $\textbf{MixGRPO-Flash}$, which further improves training efficiency while achieving comparable performance. MixGRPO exhibits substantial gains across multiple dimensions of human preference alignment, outperforming DanceGRPO in both effectiveness and efficiency, with nearly 50% lower training time. Notably, MixGRPO-Flash further reduces training time by 71%.


翻译:尽管GRPO在图像生成的人类偏好对齐中显著增强了流匹配模型,但FlowGRPO和DanceGRPO等方法仍因需对马尔可夫决策过程(MDP)指定的所有去噪步骤进行采样和优化而存在效率不足的问题。本文提出$\textbf{MixGRPO}$,一种通过整合随机微分方程(SDE)和常微分方程(ODE)来利用混合采样策略灵活性的新型框架。该框架简化了MDP内的优化过程,从而提升效率并增强性能。具体而言,MixGRPO引入滑动窗口机制,仅在窗口内使用SDE采样和GRPO引导的优化,而在窗口外应用ODE采样。这一设计将采样随机性限制在窗口内的时间步,从而降低优化开销,并允许更聚焦的梯度更新以加速收敛。此外,由于滑动窗口外的时间步不参与优化,框架支持使用高阶求解器以实现更快采样。因此,我们提出一个更快的变体,称为$\textbf{MixGRPO-Flash}$,该变体在保持相当性能的同时进一步提升了训练效率。MixGRPO在人类偏好对齐的多个维度上展现出显著优势,在效果和效率上均超越DanceGRPO,训练时间降低近50%。值得注意的是,MixGRPO-Flash进一步将训练时间减少了71%。

0
下载
关闭预览

相关内容

【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
专知会员服务
10+阅读 · 2025年4月3日
专知会员服务
13+阅读 · 2021年8月8日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
自定义损失函数Gradient Boosting
AI研习社
14+阅读 · 2018年10月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【CVPR2025】MixerMDM:可学习的人体运动扩散模型组合
专知会员服务
10+阅读 · 2025年4月3日
专知会员服务
13+阅读 · 2021年8月8日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员