超越静态数据集：通过验证合成转移实现稳健离线策略优化 (Beyond Static Datasets: Robust Offline Policy Optimization via Vetted Synthetic Transitions) - 专知论文

会员服务 ·

0

合成 · 数据集 · 变分自编码 · 稳健 · 策略优化 ·

Beyond Static Datasets: Robust Offline Policy Optimization via Vetted Synthetic Transitions

翻译：超越静态数据集：通过验证合成转移实现稳健离线策略优化

Pedram Agand,Mo Chen

from arxiv, 11 pages, 2 figures, 2 tables

Offline Reinforcement Learning (ORL) holds immense promise for safety-critical domains like industrial robotics, where real-time environmental interaction is often prohibitive. A primary obstacle in ORL remains the distributional shift between the static dataset and the learned policy, which typically mandates high degrees of conservatism that can restrain potential policy improvements. We present MoReBRAC, a model-based framework that addresses this limitation through Uncertainty-Aware latent synthesis. Instead of relying solely on the fixed data, MoReBRAC utilizes a dual-recurrent world model to synthesize high-fidelity transitions that augment the training manifold. To ensure the reliability of this synthetic data, we implement a hierarchical uncertainty pipeline integrating Variational Autoencoder (VAE) manifold detection, model sensitivity analysis, and Monte Carlo (MC) dropout. This multi-layered filtering process guarantees that only transitions residing within high-confidence regions of the learned dynamics are utilized. Our results on D4RL Gym-MuJoCo benchmarks reveal significant performance gains, particularly in ``random'' and ``suboptimal'' data regimes. We further provide insights into the role of the VAE as a geometric anchor and discuss the distributional trade-offs encountered when learning from near-optimal datasets.

翻译：离线强化学习（ORL）在工业机器人等安全关键领域具有巨大潜力，因为这些领域通常无法进行实时环境交互。ORL的主要障碍仍然是静态数据集与学习策略之间的分布偏移，这通常要求高度保守的策略，从而限制了策略的潜在改进。我们提出了MoReBRAC，这是一个基于模型的框架，通过不确定性感知的潜在合成来解决这一限制。MoReBRAC不仅依赖固定数据，还利用双循环世界模型合成高保真转移，以扩展训练流形。为确保合成数据的可靠性，我们实现了一个分层不确定性管道，集成了变分自编码器（VAE）流形检测、模型敏感性分析和蒙特卡洛（MC）丢弃法。这种多层过滤过程保证了仅使用位于学习动态高置信区域的转移。我们在D4RL Gym-MuJoCo基准测试上的结果显示出了显著的性能提升，尤其是在“随机”和“次优”数据机制中。我们进一步深入探讨了VAE作为几何锚点的作用，并讨论了从接近最优数据集中学习时遇到的分布权衡。

0

相关内容

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

24+阅读 · 1月16日

基于表征学习的离线强化学习方法研究综述

基于表征学习的离线强化学习方法研究综述

专知会员服务

29+阅读 · 2024年7月2日

【牛津大学博士论文】通过合成环境和离线数据实现高效且鲁棒的强化学习，229页pdf

【牛津大学博士论文】通过合成环境和离线数据实现高效且鲁棒的强化学习，229页pdf

专知会员服务

35+阅读 · 2024年1月21日

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

专知会员服务

44+阅读 · 2023年12月6日

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

专知会员服务

32+阅读 · 2023年10月10日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

General Flexible $f$-divergence for Challenging Offline RL Datasets with Low Stochasticity and Diverse Behavior Policies

Arxiv

0+阅读 · 2月11日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

Arxiv

0+阅读 · 2月11日

Provable Domain Adaptation for Offline Reinforcement Learning with Limited Samples

Arxiv

0+阅读 · 2月7日

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

Arxiv

0+阅读 · 2月6日

Cross-Domain Offline Policy Adaptation via Selective Transition Correction

Arxiv

0+阅读 · 2月5日

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

Arxiv

0+阅读 · 2月4日

Zero-Shot Off-Policy Learning

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

变分自编码

相关VIP内容

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

组合优化赋能的机器学习：技术基础、应用场景与研究前沿

专知会员服务

24+阅读 · 1月16日

基于表征学习的离线强化学习方法研究综述

基于表征学习的离线强化学习方法研究综述

专知会员服务

29+阅读 · 2024年7月2日

【牛津大学博士论文】通过合成环境和离线数据实现高效且鲁棒的强化学习，229页pdf

【牛津大学博士论文】通过合成环境和离线数据实现高效且鲁棒的强化学习，229页pdf

专知会员服务

35+阅读 · 2024年1月21日

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

【ETHZ博士论文】样本高效的基于模型的强化学习：零阶轨迹优化、策略蒸馏和距离学习的分析

专知会员服务

44+阅读 · 2023年12月6日

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

【NeurIPS2023】不仅仅是均匀采样：面对不平衡数据集的离线强化学习

专知会员服务

32+阅读 · 2023年10月10日

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

【伯克利博士论文】基于静态数据集的强化学习：算法、分析与应用, 386页pdf

专知会员服务

55+阅读 · 2023年8月12日

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

MILA等最新《强化学习Transformer模型》综述，详述表征学习、奖励建模、转换函数建模和策略学习等技术

专知会员服务

61+阅读 · 2023年7月16日

McGill大学等最新《不确定性决策下的上下文优化方法》综述

McGill大学等最新《不确定性决策下的上下文优化方法》综述

专知会员服务

33+阅读 · 2023年6月25日

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

万字长文！离线强化学习(OfflineRL)总结(原理、数据集、算法、复杂性分析、超参数调优等）

专知会员服务

42+阅读 · 2022年5月12日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《可信人工智能赋能系统的支柱》

《从经典神经网络到不确定性下的拓扑神经网络：军事应用》2026最新40页报告

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

《人工智能：对战略与力量的影响》slides

相关资讯

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

《基于近端策略优化(PPO)算法的制导弹体控制行为学习》美国陆军2022最新27页技术报告

专知

13+阅读 · 2022年11月25日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

29+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

【NeurIPS 2020 Tutorial】离线强化学习:从算法到挑战，80页ppt

专知

16+阅读 · 2020年12月9日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization

Arxiv

0+阅读 · 2月16日

General Flexible $f$-divergence for Challenging Offline RL Datasets with Low Stochasticity and Diverse Behavior Policies

Arxiv

0+阅读 · 2月11日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

RePO: Bridging On-Policy Learning and Off-Policy Knowledge through Rephrasing Policy Optimization

Arxiv

0+阅读 · 2月11日

Provable Domain Adaptation for Offline Reinforcement Learning with Limited Samples

Arxiv

0+阅读 · 2月7日

Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning

Arxiv

0+阅读 · 2月6日

Cross-Domain Offline Policy Adaptation via Selective Transition Correction

Arxiv

0+阅读 · 2月5日

ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation

Arxiv

0+阅读 · 2月4日

Zero-Shot Off-Policy Learning

Arxiv

0+阅读 · 2月2日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

16+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

开放动态环境下在线机器学习理论与方法

国家自然科学基金

11+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员