Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO - 专知论文

会员服务 ·

0

去噪 · 稀疏 · 流匹配 · 稀疏奖励 · 排序 ·

Alleviating Sparse Rewards by Modeling Step-Wise and Long-Term Sampling Effects in Flow-Based GRPO

翻译：缓解基于流匹配的GRPO中稀疏奖励：建模逐步与长期采样效应

Yunze Tong,Mushui Liu,Canyu Zhao,Wanggui He,Shiyi Zhang,Hongwei Zhang,Peng Zhang,Jinlong Liu,Ju Huang,Jiamang Wang,Hao Jiang,Pipei Huang

from arxiv, 18 pages, in submission

Deploying GRPO on Flow Matching models has proven effective for text-to-image generation. However, existing paradigms typically propagate an outcome-based reward to all preceding denoising steps without distinguishing the local effect of each step. Moreover, current group-wise ranking mainly compares trajectories at matched timesteps and ignores within-trajectory dependencies, where certain early denoising actions can affect later states via delayed, implicit interactions. We propose TurningPoint-GRPO (TP-GRPO), a GRPO framework that alleviates step-wise reward sparsity and explicitly models long-term effects within the denoising trajectory. TP-GRPO makes two key innovations: (i) it replaces outcome-based rewards with step-level incremental rewards, providing a dense, step-aware learning signal that better isolates each denoising action's "pure" effect, and (ii) it identifies turning points-steps that flip the local reward trend and make subsequent reward evolution consistent with the overall trajectory trend-and assigns these actions an aggregated long-term reward to capture their delayed impact. Turning points are detected solely via sign changes in incremental rewards, making TP-GRPO efficient and hyperparameter-free. Extensive experiments also demonstrate that TP-GRPO exploits reward signals more effectively and consistently improves generation. Demo code is available at https://github.com/YunzeTong/TurningPoint-GRPO.

翻译：在流匹配模型上部署GRPO已被证明对文本到图像生成有效。然而，现有范式通常将基于结果的奖励传播到所有先前的去噪步骤，而未区分每个步骤的局部效应。此外，当前的分组排序主要比较匹配时间步的轨迹，而忽略了轨迹内的依赖关系，其中某些早期去噪动作可能通过延迟的隐式交互影响后续状态。我们提出了TurningPoint-GRPO（TP-GRPO），这是一个缓解逐步奖励稀疏性并显式建模去噪轨迹内长期效应的GRPO框架。TP-GRPO做出了两项关键创新：（i）用步骤级增量奖励替代基于结果的奖励，提供密集的、步骤感知的学习信号，以更好地隔离每个去噪动作的“纯粹”效应；（ii）识别转折点——即翻转局部奖励趋势并使后续奖励演化与整体轨迹趋势一致的步骤——并为这些动作分配聚合的长期奖励，以捕捉其延迟影响。转折点仅通过增量奖励的符号变化检测，使得TP-GRPO高效且无需超参数调整。大量实验也表明，TP-GRPO能更有效地利用奖励信号，并持续提升生成质量。演示代码可在https://github.com/YunzeTong/TurningPoint-GRPO获取。

0

相关内容

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

专知会员服务

8+阅读 · 3月10日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

8+阅读 · 2025年10月23日

【CVPR2025】在去噪扩散模型中优化最短路径

【CVPR2025】在去噪扩散模型中优化最短路径

专知会员服务

16+阅读 · 2025年3月10日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【CVPR2024】扩散模型的结构指导对抗训练

【CVPR2024】扩散模型的结构指导对抗训练

专知会员服务

27+阅读 · 2024年2月28日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

TensorFlow

14+阅读 · 2020年7月22日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Diffusion Reinforcement Learning via Centered Reward Distillation

Arxiv

0+阅读 · 3月14日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 3月12日

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance

Arxiv

0+阅读 · 2月4日

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Arxiv

0+阅读 · 2月3日

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月3日

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

1+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

1+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

1+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

0+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

9+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

4+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

4+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

14+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

3+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

生成模型中组相对策略优化 (GRPO) 的研究进展：综述

专知会员服务

8+阅读 · 3月10日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

8+阅读 · 2025年10月23日

【CVPR2025】在去噪扩散模型中优化最短路径

【CVPR2025】在去噪扩散模型中优化最短路径

专知会员服务

16+阅读 · 2025年3月10日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

【CVPR2024】扩散模型的结构指导对抗训练

【CVPR2024】扩散模型的结构指导对抗训练

专知会员服务

27+阅读 · 2024年2月28日

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

【ICML2022】稀疏奖励目标条件强化学习的阶段性自模仿约减

专知会员服务

19+阅读 · 2022年6月28日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

【SIGMOD2020】稀疏数据半监督学习的分解图表示，Factorized Graph Representations

专知会员服务

19+阅读 · 2020年3月6日

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

【斯坦福大学】Dropout的隐性和显性正则化效应，Regularization Effects

专知会员服务

34+阅读 · 2020年3月4日

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

使用图卷积网络对多药副作用进行建模（Modeling polypharmacy side effects with graph convolutional networks）

专知会员服务

36+阅读 · 2019年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

案例分享 | TensorFlow 大规模稀疏模型异步训练的分布式优化

TensorFlow

14+阅读 · 2020年7月22日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

深度学习应用在图像匹配的效果如何？

深度学习应用在图像匹配的效果如何？

中国图象图形学报

10+阅读 · 2019年6月11日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

论文笔记之attention mechanism专题1:SA-Net（CVPR 2018）

统计学习与视觉计算组

16+阅读 · 2018年4月5日

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

【论文推荐】最新六篇目标跟踪相关论文—双重Siamese网络、判别性相关滤波、多目标跟踪、深度多尺度时空判别性、综述、显著性增强

专知

34+阅读 · 2018年2月27日

推荐算法：Match与Rank模型的交织配合

推荐算法：Match与Rank模型的交织配合

从0到1

15+阅读 · 2017年12月18日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Diffusion Reinforcement Learning via Centered Reward Distillation

Arxiv

0+阅读 · 3月14日

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Arxiv

0+阅读 · 3月12日

GRPO is Secretly a Process Reward Model

Arxiv

0+阅读 · 2月20日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference

Arxiv

0+阅读 · 2月11日

AEGPO: Adaptive Entropy-Guided Policy Optimization for Diffusion Models

Arxiv

0+阅读 · 2月6日

MAMBO-G: Magnitude-Aware Mitigation for Boosted Guidance

Arxiv

0+阅读 · 2月4日

MixGRPO: Unlocking Flow-based GRPO Efficiency with Mixed ODE-SDE

Arxiv

0+阅读 · 2月3日

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月3日

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Arxiv

0+阅读 · 2月2日

相关基金

复杂网络中部分同步斑图的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于有限元方法的反应扩散种群模型斑图数值模拟研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

两类Markov排队模型的衰减性质

国家自然科学基金

1+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有向图谱理论在图像匹配中应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于稀疏理论和图Laplacian矩阵的图像去噪理论与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高阶图像去噪模型的快速数值算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员