VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation - 专知论文

会员服务 ·

0

对齐 · 算法 · 增强现实（AR） · 异构 · 结构 ·

VAR RL Done Right: Tackling Asynchronous Policy Conflicts in Visual Autoregressive Generation

翻译：VAR RL的正确实现：解决视觉自回归生成中的异步策略冲突

Shikun Sun,Liao Qu,Huichao Zhang,Yiheng Liu,Yangyang Song,Xian Li,Xu Wang,Yi Jiang,Daniel K. Du,Xinglong Wu,Jia Jia

from arxiv, Project page: https://github.com/ByteVisionLab/NextFlow

Visual generation is dominated by three paradigms: AutoRegressive (AR), diffusion, and Visual AutoRegressive (VAR) models. Unlike AR and diffusion, VARs operate on heterogeneous input structures across their generation steps, which creates severe asynchronous policy conflicts. This issue becomes particularly acute in reinforcement learning (RL) scenarios, leading to unstable training and suboptimal alignment. To resolve this, we propose a novel framework to enhance Group Relative Policy Optimization (GRPO) by explicitly managing these conflicts. Our method integrates three synergistic components: 1) a stabilizing intermediate reward to guide early-stage generation; 2) a dynamic time-step reweighting scheme for precise credit assignment; and 3) a novel mask propagation algorithm, derived from principles of Reward Feedback Learning (ReFL), designed to isolate optimization effects both spatially and temporally. Our approach demonstrates significant improvements in sample quality and objective alignment over the vanilla GRPO baseline, enabling robust and effective optimization for VAR models.

翻译：视觉生成领域主要由三种范式主导：自回归（AR）模型、扩散模型和视觉自回归（VAR）模型。与AR和扩散模型不同，VAR模型在其生成步骤中处理异构的输入结构，这导致了严重的异步策略冲突。该问题在强化学习（RL）场景中变得尤为突出，导致训练不稳定和对齐效果欠佳。为解决此问题，我们提出了一个新颖的框架，通过显式管理这些冲突来增强组相对策略优化（GRPO）。我们的方法整合了三个协同组件：1）一个用于引导早期生成阶段的稳定化中间奖励；2）一个用于精确信用分配的动态时间步重加权方案；以及3）一种新颖的掩码传播算法，该算法源自奖励反馈学习（ReFL）原理，旨在在空间和时间上隔离优化效应。我们的方法在样本质量和目标对齐方面相比原始的GRPO基线显示出显著改进，从而为VAR模型实现了稳健且有效的优化。

0

相关内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

统一的多模态理解与生成模型：进展、挑战与机遇

统一的多模态理解与生成模型：进展、挑战与机遇

专知会员服务

31+阅读 · 2025年5月6日

视觉自回归模型综述

视觉自回归模型综述

专知会员服务

25+阅读 · 2024年11月14日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

专知会员服务

21+阅读 · 2022年6月3日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

总变差正则化模型的区域分解算法及其医学图像应用

国家自然科学基金

2+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation

Arxiv

0+阅读 · 2月5日

Variance Reduction Based Experience Replay for Policy Optimization

Arxiv

0+阅读 · 2月5日

SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration

Arxiv

0+阅读 · 2月4日

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Arxiv

0+阅读 · 2月2日

From Prediction to Perfection: Introducing Refinement to Autoregressive Image Generation

Arxiv

0+阅读 · 1月28日

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

Arxiv

0+阅读 · 1月14日

FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction

Arxiv

0+阅读 · 1月12日

Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models

Arxiv

0+阅读 · 1月8日

ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Arxiv

0+阅读 · 1月7日

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

增强现实（AR）

最新内容

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

2+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

4+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

3+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

4+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

相关VIP内容

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

【博士论文】论视觉 Transformer (Vision Transformers) 中的归纳偏置

专知会员服务

9+阅读 · 2月13日

统一的多模态理解与生成模型：进展、挑战与机遇

统一的多模态理解与生成模型：进展、挑战与机遇

专知会员服务

31+阅读 · 2025年5月6日

视觉自回归模型综述

视觉自回归模型综述

专知会员服务

25+阅读 · 2024年11月14日

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

Sora背后的技术，最新《可控生成与文本到图像扩散模型》综述

专知会员服务

69+阅读 · 2024年3月9日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

【英伟达Arash Vahdat】去噪扩散模型:生成学习，附Slides与视频

专知会员服务

44+阅读 · 2022年11月19日

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

META微软等最新ACL2022教程《非自回归序列生成》，168页ppt

专知会员服务

21+阅读 · 2022年6月3日

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

【伯克利】自回归模型的局部掩卷积，Locally Masked Convolution for Autoregressive Models

专知会员服务

20+阅读 · 2020年6月23日

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

【牛津大学ICLR2020】通过元学习的贝叶斯自适应深度RL, VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

专知会员服务

25+阅读 · 2020年2月28日

热门VIP内容

开通专知VIP会员享更多权益服务

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

相关资讯

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

港科大浙大最新《深度生成模型三维表示》综述，20页pdf全面阐述3D生成进展

专知

12+阅读 · 2022年10月31日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

NLP+CV《桥接视觉与语言的研究综述》，带你全面了解视觉+语言最新应用和方法

中国人工智能学会

27+阅读 · 2019年7月24日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

61+阅读 · 2019年6月14日

变分自编码器VAE：一步到位的聚类方案

变分自编码器VAE：一步到位的聚类方案

PaperWeekly

25+阅读 · 2018年9月18日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

视频 | 论文最爱的变分自编码器（ VAE），不了解一下？

AI科技评论

13+阅读 · 2018年3月17日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

SSG: Scaled Spatial Guidance for Multi-Scale Visual Autoregressive Generation

Arxiv

0+阅读 · 2月5日

Variance Reduction Based Experience Replay for Policy Optimization

Arxiv

0+阅读 · 2月5日

SparVAR: Exploring Sparsity in Visual AutoRegressive Modeling for Training-Free Acceleration

Arxiv

0+阅读 · 2月4日

Causal Forcing: Autoregressive Diffusion Distillation Done Right for High-Quality Real-Time Interactive Video Generation

Arxiv

0+阅读 · 2月2日

From Prediction to Perfection: Introducing Refinement to Autoregressive Image Generation

Arxiv

0+阅读 · 1月28日

VideoAR: Autoregressive Video Generation via Next-Frame & Scale Prediction

Arxiv

0+阅读 · 1月14日

FlexVAR: Flexible Visual Autoregressive Modeling without Residual Prediction

Arxiv

0+阅读 · 1月12日

Breaking AR's Sampling Bottleneck: Provable Acceleration via Diffusion Language Models

Arxiv

0+阅读 · 1月8日

ResTok: Learning Hierarchical Residuals in 1D Visual Tokenizers for Autoregressive Image Generation

Arxiv

0+阅读 · 1月7日

Go with Your Gut: Scaling Confidence for Autoregressive Image Generation

Arxiv

0+阅读 · 1月6日

相关基金

总变差正则化模型的区域分解算法及其医学图像应用

国家自然科学基金

2+阅读 · 2015年12月31日

视觉识别中的实用鲁棒回归技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

不规则问题驱动下的多维度SAR回波混合粒度并行模拟

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

非局部总变差正则化图像恢复模型的快速子空间校正算法

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员