Controlling generative models is computationally expensive. This is because optimal alignment with a reward function--whether via inference-time steering or fine-tuning--requires estimating the value function. This task demands access to the conditional posterior $p_{1|t}(x_1|x_t)$, the distribution of clean data $x_1$ consistent with an intermediate state $x_t$, a requirement that typically compels methods to resort to costly trajectory simulations. To address this bottleneck, we introduce Meta Flow Maps (MFMs), a framework extending consistency models and flow maps into the stochastic regime. MFMs are trained to perform stochastic one-step posterior sampling, generating arbitrarily many i.i.d. draws of clean data $x_1$ from any intermediate state. Crucially, these samples provide a differentiable reparametrization that unlocks efficient value function estimation. We leverage this capability to solve bottlenecks in both paradigms: enabling inference-time steering without inner rollouts, and facilitating unbiased, off-policy fine-tuning to general rewards. Empirically, our single-particle steered-MFM sampler outperforms a Best-of-1000 baseline on ImageNet across multiple rewards at a fraction of the compute.


翻译:控制生成模型的计算成本高昂。这是因为与奖励函数的最优对齐——无论是通过推理时引导还是微调——都需要估计价值函数。该任务要求访问条件后验分布$p_{1|t}(x_1|x_t)$,即与中间状态$x_t$一致的干净数据$x_1$的分布,这一要求通常迫使方法依赖昂贵的轨迹模拟。为解决这一瓶颈,我们引入了元流映射(MFMs),该框架将一致性模型和流映射扩展至随机性范畴。MFMs经过训练可执行随机单步后验采样,从任意中间状态生成任意多个独立同分布的干净数据$x_1$样本。关键的是,这些样本提供了可微分的重参数化方法,从而实现了高效的价值函数估计。我们利用这一能力解决了两类范式中的瓶颈:实现无需内部展开的推理时引导,并促进面向通用奖励的无偏、离策略微调。实验表明,在ImageNet数据集上,我们的单粒子引导MFM采样器在多种奖励函数上以极低计算成本超越了1000选1基线方法。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
【Google-CMU】元伪标签的元学习,Meta Pseudo Labels
专知会员服务
32+阅读 · 2020年3月30日
【WWW2020-华为诺亚方舟论文】元学习推荐系统MetaSelector
专知会员服务
56+阅读 · 2020年2月10日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
SCENE-一个可扩展两层级新闻推荐系统
全球人工智能
11+阅读 · 2018年1月7日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
综述:Image Caption 任务之语句多样性
PaperWeekly
22+阅读 · 2018年11月30日
SCENE-一个可扩展两层级新闻推荐系统
全球人工智能
11+阅读 · 2018年1月7日
Spark机器学习:矩阵及推荐算法
LibRec智能推荐
16+阅读 · 2017年8月3日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员