Meta Flow Maps enable scalable reward alignment - 专知论文

会员服务 ·

0

映射 · 对齐 · 计算成本 · 价值函数 · 值函数 ·

Meta Flow Maps enable scalable reward alignment

翻译：元流映射实现可扩展的奖励对齐

Peter Potaptchik,Adhi Saravanan,Abbas Mammadov,Alvaro Prat,Michael S. Albergo,Yee Whye Teh

Controlling generative models is computationally expensive. This is because optimal alignment with a reward function--whether via inference-time steering or fine-tuning--requires estimating the value function. This task demands access to the conditional posterior $p_{1|t}(x_1|x_t)$, the distribution of clean data $x_1$ consistent with an intermediate state $x_t$, a requirement that typically compels methods to resort to costly trajectory simulations. To address this bottleneck, we introduce Meta Flow Maps (MFMs), a framework extending consistency models and flow maps into the stochastic regime. MFMs are trained to perform stochastic one-step posterior sampling, generating arbitrarily many i.i.d. draws of clean data $x_1$ from any intermediate state. Crucially, these samples provide a differentiable reparametrization that unlocks efficient value function estimation. We leverage this capability to solve bottlenecks in both paradigms: enabling inference-time steering without inner rollouts, and facilitating unbiased, off-policy fine-tuning to general rewards. Empirically, our single-particle steered-MFM sampler outperforms a Best-of-1000 baseline on ImageNet across multiple rewards at a fraction of the compute.

翻译：控制生成模型的计算成本高昂。这是因为与奖励函数的最优对齐——无论是通过推理时引导还是微调——都需要估计价值函数。该任务要求访问条件后验分布$p_{1|t}(x_1|x_t)$，即与中间状态$x_t$一致的干净数据$x_1$的分布，这一要求通常迫使方法依赖昂贵的轨迹模拟。为解决这一瓶颈，我们引入了元流映射（MFMs），该框架将一致性模型和流映射扩展至随机性范畴。MFMs经过训练可执行随机单步后验采样，从任意中间状态生成任意多个独立同分布的干净数据$x_1$样本。关键的是，这些样本提供了可微分的重参数化方法，从而实现了高效的价值函数估计。我们利用这一能力解决了两类范式中的瓶颈：实现无需内部展开的推理时引导，并促进面向通用奖励的无偏、离策略微调。实验表明，在ImageNet数据集上，我们的单粒子引导MFM采样器在多种奖励函数上以极低计算成本超越了1000选1基线方法。

0

相关内容

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

专知会员服务

29+阅读 · 2024年5月14日

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

36+阅读 · 2024年2月29日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知会员服务

56+阅读 · 2020年2月10日

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

AINLP

12+阅读 · 2021年1月13日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

12+阅读 · 2018年8月15日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

SCENE-一个可扩展两层级新闻推荐系统

SCENE-一个可扩展两层级新闻推荐系统

全球人工智能

11+阅读 · 2018年1月7日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

Reward Modeling from Natural Language Human Feedback

Arxiv

0+阅读 · 2月16日

Preference-Guided Prompt Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Arxiv

0+阅读 · 2月11日

R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging

Arxiv

0+阅读 · 2月6日

Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

Arxiv

0+阅读 · 2月5日

Alignment of Diffusion Model and Flow Matching for Text-to-Image Generation

Arxiv

0+阅读 · 1月31日

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Arxiv

0+阅读 · 1月28日

One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Arxiv

0+阅读 · 1月26日

VIP会员

文章信息

相关主题

最新内容

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

0+阅读 · 15分钟前

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

10+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

9+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

8+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

14+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

7+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

9+阅读 · 4月18日

人工智能在战场行动中的演进及伊朗案例

人工智能在战场行动中的演进及伊朗案例

专知会员服务

7+阅读 · 4月18日

美AI公司Anthropic推出网络安全模型“Mythos”

美AI公司Anthropic推出网络安全模型“Mythos”

专知会员服务

4+阅读 · 4月18日

【博士论文】面向城市环境的可解释计算机视觉

【博士论文】面向城市环境的可解释计算机视觉

专知会员服务

5+阅读 · 4月18日

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

【CVPR2026】SEATrack：一种简明、高效且具备自适应能力的多模态跟踪器

专知会员服务

4+阅读 · 4月18日

大语言模型的自改进机制：技术综述与未来展望

大语言模型的自改进机制：技术综述与未来展望

专知会员服务

7+阅读 · 4月18日

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

《面向战术决策的广义智能：大语言模型驱动的动态武器-目标分配》

专知会员服务

11+阅读 · 4月18日

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

《分布式军事人工智能理论：部分可观测与通信条件下的协调约束多智能体强化学习》

专知会员服务

11+阅读 · 4月18日

《第四代军事特种作战部队选拔与评估》

《第四代军事特种作战部队选拔与评估》

专知会员服务

3+阅读 · 4月18日

相关VIP内容

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

扩散模型如何做好可控生成？基于奖励引导的控制生成用于扩散模型中的推理时对齐：教程与综述

专知会员服务

21+阅读 · 2025年1月20日

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

大模型如何多模态偏好对齐？最新《基于人类反馈的语言、语音和视觉任务偏好优化》综述

专知会员服务

29+阅读 · 2024年9月22日

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

【ICML2024】使用大型语言模型通过自对齐为机器人技能学习奖励

专知会员服务

29+阅读 · 2024年5月14日

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

SORA底层模型用好了也能赚钱！DiffsFormer：基于扩散模型的股票因子生成

专知会员服务

36+阅读 · 2024年2月29日

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

什么是扩散模型？谷歌大脑Calvin Luo最新《扩散模型理解》，带你对基于评分与基于能量的扩散模型的统一视角数学理解

专知会员服务

83+阅读 · 2022年8月27日

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

【DeepMind】无监督实体对齐，AlignNet: Unsupervised Entity Alignment

专知会员服务

21+阅读 · 2020年7月24日

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

可解释高效异构图卷积网络，Interpretable and Efficient Heterogeneous Graph Convolutional Network

专知会员服务

63+阅读 · 2020年7月12日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知会员服务

32+阅读 · 2020年3月30日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知会员服务

56+阅读 · 2020年2月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《利用大语言模型增强多域作战兵棋推演》（报告）

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

相关资讯

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

支持多值带权重、稀疏、共享embedding权重的DSSM召回实现（tensorflow2）

AINLP

12+阅读 · 2021年1月13日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector

专知

11+阅读 · 2020年2月10日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

综述：Image Caption 任务之语句多样性

综述：Image Caption 任务之语句多样性

PaperWeekly

22+阅读 · 2018年11月30日

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

推荐系统、风控模型、知识图谱，竟然都可以用网络挖掘来实现

数据分析

12+阅读 · 2018年8月15日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

SCENE-一个可扩展两层级新闻推荐系统

SCENE-一个可扩展两层级新闻推荐系统

全球人工智能

11+阅读 · 2018年1月7日

Spark机器学习：矩阵及推荐算法

Spark机器学习：矩阵及推荐算法

LibRec智能推荐

16+阅读 · 2017年8月3日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Reward Modeling from Natural Language Human Feedback

Arxiv

0+阅读 · 2月16日

Preference-Guided Prompt Optimization for Text-to-Image Generation

Arxiv

0+阅读 · 2月13日

Dual-Granularity Contrastive Reward via Generated Episodic Guidance for Efficient Embodied RL

Arxiv

0+阅读 · 2月13日

Beyond VLM-Based Rewards: Diffusion-Native Latent Reward Modeling

Arxiv

0+阅读 · 2月11日

GLASS Flows: Transition Sampling for Alignment of Flow and Diffusion Models

Arxiv

0+阅读 · 2月11日

R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging

Arxiv

0+阅读 · 2月6日

Diamond Maps: Efficient Reward Alignment via Stochastic Flow Maps

Arxiv

0+阅读 · 2月5日

Alignment of Diffusion Model and Flow Matching for Text-to-Image Generation

Arxiv

0+阅读 · 1月31日

TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows

Arxiv

0+阅读 · 1月28日

One Adapts to Any: Meta Reward Modeling for Personalized LLM Alignment

Arxiv

0+阅读 · 1月26日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

基于GPU的几类分数阶微分方程的并行算法研究及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

全局性气动外形优化中的流场加速求解新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

网状meta分析实效性评价方法及其广义线性混合效应模型的构建与应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于扩展的概率转移矩阵模型的高精度快速广义门电路可靠性评估方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

适定的多元样条逼近方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

千万自由度量级并行有限元模态和振动分析软件研发

国家自然科学基金

0+阅读 · 2014年12月31日

基于对等网的可扩展流媒体分发模型研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员