Although deep reinforcement learning (DRL) has many success stories, the large-scale deployment of policies learned through these advanced techniques in safety-critical scenarios is hindered by their lack of formal guarantees. Variational Markov Decision Processes (VAE-MDPs) are discrete latent space models that provide a reliable framework for distilling formally verifiable controllers from any RL policy. While the related guarantees address relevant practical aspects such as the satisfaction of performance and safety properties, the VAE approach suffers from several learning flaws (posterior collapse, slow learning speed, poor dynamics estimates), primarily due to the absence of abstraction and representation guarantees to support latent optimization. We introduce the Wasserstein auto-encoded MDP (WAE-MDP), a latent space model that fixes those issues by minimizing a penalized form of the optimal transport between the behaviors of the agent executing the original policy and the distilled policy, for which the formal guarantees apply. Our approach yields bisimulation guarantees while learning the distilled policy, allowing concrete optimization of the abstraction and representation model quality. Our experiments show that, besides distilling policies up to 10 times faster, the latent model quality is indeed better in general. Moreover, we present experiments from a simple time-to-failure verification algorithm on the latent space. The fact that our approach enables such simple verification techniques highlights its applicability.


翻译:尽管深度强化学习(DRL)已取得诸多成功案例,但在安全关键场景中大规模部署通过先进技术习得的策略仍因其缺乏形式化保证而受阻。变分马尔可夫决策过程(VAE-MDP)作为离散潜空间模型,为从任意强化学习策略中蒸馏可形式化验证控制器提供了可靠框架。尽管其相关保证解决了满足性能与安全属性等实际关键问题,但VAE方法仍存在若干学习缺陷(后验坍塌、收敛缓慢、动态估计能力弱),这主要源于缺乏支撑潜空间优化的抽象与表征保证。我们提出Wasserstein自编码马尔可夫决策过程(WAE-MDP),该潜空间模型通过最小化执行原始策略与经形式化保证的蒸馏策略的智能体行为之间的最优传输惩罚项,解决了上述问题。本方法在蒸馏策略过程中同时获得双模拟保证,实现了抽象与表征模型质量的具体优化。实验表明,除蒸馏速度提升达10倍外,潜空间模型质量整体更优。我们还展示了基于潜空间的简单失效时间验证算法的实验结果。本方法能够支撑此类简单验证技术的事实,凸显了其实际应用价值。

0
下载
关闭预览

相关内容

【ICML2023】序列反事实风险最小化
专知会员服务
21+阅读 · 2023年5月1日
JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
7+阅读 · 2022年12月9日
专知会员服务
49+阅读 · 2021年4月24日
专知会员服务
45+阅读 · 2020年12月18日
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月12日
Arxiv
29+阅读 · 2023年2月10日
Arxiv
32+阅读 · 2021年3月29日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关资讯
VCIP 2022 Call for Demos
CCF多媒体专委会
1+阅读 · 2022年6月6日
量化金融强化学习论文集合
专知
14+阅读 · 2019年12月18日
RL解决'LunarLander-v2' (SOTA)
CreateAMind
62+阅读 · 2019年9月27日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
【论文】变分推断(Variational inference)的总结
机器学习研究会
39+阅读 · 2017年11月16日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员