Discrete flow models (DFMs) are a class of flexible generative models for generating discrete data, and diffusion large language models (dLLMs) can be viewed as a special case with a specific choice of mixture path and a masked source distribution. While several recent works have explored reinforcement learning into dLLMs, its application to more general discrete flow models remains underexplored. In this work, we present discrete Flow-GRPO (dFlowGRPO), a unified reinforcement learning framework for discrete flow models that supports a broad family of probability paths and non-masked source distributions. We derive the full trajectory probability for DFMs and formulate denoising as a Markov decision process, enabling dFlowGRPO to incorporate information from both the associated conditional transition rates and the posterior model during reinforcement learning. We apply dFlowGRPO to FUDOKI, a recent multimodal discrete flow model, and evaluate it on both image generation and multimodal understanding tasks. Empirical results show that dFlowGRPO outperforms existing GRPO-type methods for dLLMs on text-to-image generation tasks and achieves performance competitive with continuous flow-based models trained using FlowGRPO, while also demonstrating strong capabilities on understanding tasks.


翻译:离散流模型(DFM)是一类用于生成离散数据的灵活生成模型,扩散大语言模型(dLLM)可视为其特例,由特定的混合路径选择与掩码源分布构成。尽管近期多项研究已将强化学习引入dLLM,但该方法在更广义离散流模型中的应用仍鲜有探索。本文提出离散Flow-GRPO(dFlowGRPO)框架——一个支持概率路径泛化族与非掩码源分布的离散流模型统一强化学习框架。我们推导了DFM的完整轨迹概率,并将去噪过程建模为马尔可夫决策过程,使dFlowGRPO在强化学习过程中能同时利用关联条件转移率与后验模型的信息。将该方法应用于多模态离散流模型FUDOKI后,我们在图像生成与多模态理解任务上进行了评估。实验结果表明:在文本到图像生成任务中,dFlowGRPO性能优于现有面向dLLM的GRPO类方法;在与基于FlowGRPO训练的连续流模型对比时亦展现出相当竞争力,同时在理解任务中表现出色。

0
下载
关闭预览

相关内容

用于多模态大模型的离散标记化:全面综述
专知会员服务
19+阅读 · 2025年8月2日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【Yoshua Bengio最新一作论文】GFlowNet基础,GFlowNet Foundations
专知会员服务
26+阅读 · 2021年11月22日
超全总结:神经网络加速之量化模型 | 附带代码
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月17日
VIP会员
最新内容
定向能反无人机系统最新发展动态
专知会员服务
0+阅读 · 20分钟前
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 37分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关VIP内容
用于多模态大模型的离散标记化:全面综述
专知会员服务
19+阅读 · 2025年8月2日
扩散模型概述:应用、引导生成、统计率和优化
专知会员服务
47+阅读 · 2024年4月14日
【Yoshua Bengio最新一作论文】GFlowNet基础,GFlowNet Foundations
专知会员服务
26+阅读 · 2021年11月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员