Posterior Optimization with Clipped Objective for Bridging Efficiency and Stability in Generative Policy Learning - 专知论文

会员服务 ·

0

在线 · 策略学习 · 微调 · 表现力 · 捕获 ·

Posterior Optimization with Clipped Objective for Bridging Efficiency and Stability in Generative Policy Learning

翻译：基于裁剪目标的的后验优化：桥接生成策略学习中的效率与稳定性

Yuhui Chen,Haoran Li,Zhennan Jiang,Yuxing Qin,Yuxuan Wan,Weiheng Liu,Dongbin Zhao

Expressive generative models have advanced robotic manipulation by capturing complex, multi-modal action distributions over temporally extended trajectories. However, fine-tuning these policies via RL remains challenging due to instability and sample inefficiency. We introduce Posterior Optimization with Clipped Objective (POCO), a principled RL framework that formulates policy improvement as a posterior inference problem tailored for temporal action chunks. Through an Expectation-Maximization procedure, POCO distills a reward-weighted implicit posterior into the policy without likelihood estimation. Furthermore, POCO adopts an offline-to-online paradigm that anchors online exploration to pre-trained priors, and its model-agnostic design scales to fine-tune large VLA models without architectural modifications. Evaluations across 7 simulation benchmarks and 4 contact-rich real-world tasks demonstrate that POCO prevents catastrophic policy collapse, outperforms SOTA baselines, and achieves a 96.7% success rate on real-world tasks. Videos are available at our project website https://cccedric.github.io/poco/.

翻译：富有表现力的生成模型通过捕获时间扩展轨迹上的复杂多模态动作分布，推动了机器人操作技术的进步。然而，由于不稳定性和样本效率低下，通过强化学习对这些策略进行微调仍然具有挑战性。我们提出了一种基于裁剪目标的后验优化（POCO）框架，这是一个原则性的强化学习框架，将策略改进表述为针对时间动作块的后验推断问题。通过期望最大化过程，POCO将奖励加权的隐式后验知识蒸馏到策略中，而无需进行似然估计。此外，POCO采用离线到在线的范式，将在线探索锚定到预训练先验上，其模型无关的设计使其无需架构修改即可扩展用于微调大型视觉-语言-动作模型。在7个模拟基准测试和4个高接触度的真实世界任务上的评估表明，POCO能够防止灾难性的策略崩溃，性能优于现有最先进基线，并在真实世界任务上实现了96.7%的成功率。相关视频可在项目网站https://cccedric.github.io/poco/上获取。

0

相关内容

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

16+阅读 · 4月18日

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

专知会员服务

38+阅读 · 1月25日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

29+阅读 · 2025年3月6日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

《不确定性下的生成式模型适应性规划》

《不确定性下的生成式模型适应性规划》

专知会员服务

33+阅读 · 2024年8月8日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

102+阅读 · 2022年11月24日

【干货书】优化与机器学习，Optimization and Machine Learning Optimization for Machine Learning and Machine Learning for Optimization

【干货书】优化与机器学习，Optimization and Machine Learning Optimization for Machine Learning and Machine Learning for Optimization

专知会员服务

40+阅读 · 2022年4月8日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

具有多操作特性的间歇工业过程监测技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色集合理论的工艺规划和生产调度集成建模理论与优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Discrete Preference Learning for Personalized Multimodal Generation

Arxiv

0+阅读 · 4月22日

Think Before Writing: Feature-Level Multi-Objective Optimization for Generative Citation Visibility

Arxiv

0+阅读 · 4月21日

Bi-Level Optimization for Generative Recommendation: Bridging Tokenization and Generation

Arxiv

0+阅读 · 4月16日

Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control

Arxiv

0+阅读 · 4月9日

Sustainable Transfer Learning for Adaptive Robot Skills

Arxiv

0+阅读 · 4月8日

OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

Arxiv

0+阅读 · 4月5日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

Arxiv

0+阅读 · 4月1日

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Arxiv

0+阅读 · 3月18日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

2+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

3+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

3+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

3+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

3+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

《迈向可解释强化学习及面向战略决策的定制化学习基准》（70页）

专知会员服务

16+阅读 · 4月18日

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

专知会员服务

38+阅读 · 1月25日

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

生成式人工智能在机器人操作中的应用：综述

生成式人工智能在机器人操作中的应用：综述

专知会员服务

29+阅读 · 2025年3月6日

多样化偏好优化

多样化偏好优化

专知会员服务

12+阅读 · 2025年2月3日

《不确定性下的生成式模型适应性规划》

《不确定性下的生成式模型适应性规划》

专知会员服务

33+阅读 · 2024年8月8日

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

用Transformer学习通用超参数优化器，DeepMind Yutian Chen博士讲授，附Slides与视频

专知会员服务

40+阅读 · 2023年3月12日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知会员服务

102+阅读 · 2022年11月24日

【干货书】优化与机器学习，Optimization and Machine Learning Optimization for Machine Learning and Machine Learning for Optimization

【干货书】优化与机器学习，Optimization and Machine Learning Optimization for Machine Learning and Machine Learning for Optimization

专知会员服务

40+阅读 · 2022年4月8日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

【伯克利博士论文】统计与优化—统计学习算法的计算保障（附143页PDF全文下载）

专知

30+阅读 · 2019年1月2日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

相关论文

GCImOpt: Learning efficient goal-conditioned policies by imitating optimal trajectories

Arxiv

0+阅读 · 4月24日

Discrete Preference Learning for Personalized Multimodal Generation

Arxiv

0+阅读 · 4月22日

Think Before Writing: Feature-Level Multi-Objective Optimization for Generative Citation Visibility

Arxiv

0+阅读 · 4月21日

Bi-Level Optimization for Generative Recommendation: Bridging Tokenization and Generation

Arxiv

0+阅读 · 4月16日

Drift-Based Policy Optimization: Native One-Step Policy Learning for Online Robot Control

Arxiv

0+阅读 · 4月9日

Sustainable Transfer Learning for Adaptive Robot Skills

Arxiv

0+阅读 · 4月8日

OP-GRPO: Efficient Off-Policy GRPO for Flow-Matching Models

Arxiv

0+阅读 · 4月5日

Behavior-Constrained Reinforcement Learning with Receding-Horizon Credit Assignment for High-Performance Control

Arxiv

0+阅读 · 4月3日

Deep Reinforcement Learning for Robotic Manipulation under Distribution Shift with Bounded Extremum Seeking

Arxiv

0+阅读 · 4月1日

Generative Control as Optimization: Time Unconditional Flow Matching for Adaptive and Robust Robotic Control

Arxiv

0+阅读 · 3月18日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

具有多操作特性的间歇工业过程监测技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

24+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于自适应采样和变复杂度近似的多学科稳健性设计优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多色集合理论的工艺规划和生产调度集成建模理论与优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

12+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员