Deep Reinforcement Learning (DRL) has made considerable advances in simulated and physical robot control tasks, especially when problems admit a fully observed Markov Decision Process (MDP) formulation. When observations only partially capture the underlying state, the problem becomes a Partially Observable MDP (POMDP), and performance rankings between algorithms can change. We empirically compare Proximal Policy Optimization (PPO), Twin Delayed Deep Deterministic Policy Gradient (TD3), and Soft Actor-Critic (SAC) on representative POMDP variants of continuous-control benchmarks. Contrary to widely reported MDP results where TD3 and SAC typically outperform PPO, we observe an inversion: PPO attains higher robustness under partial observability. We attribute this to the stabilizing effect of multi-step bootstrapping. Furthermore, incorporating multi-step targets into TD3 (MTD3) and SAC (MSAC) improves their robustness. These findings provide practical guidance for selecting and adapting DRL algorithms in partially observable settings without requiring new theoretical machinery.


翻译:深度强化学习(DRL)在模拟和物理机器人控制任务中取得了显著进展,尤其是当问题可建模为完全可观测马尔可夫决策过程(MDP)时。当观测仅部分捕获底层状态时,问题转化为部分可观测MDP(POMDP),算法间的性能排名可能发生变化。我们针对连续控制基准测试中的代表性POMDP变体,对近端策略优化(PPO)、双延迟深度确定性策略梯度(TD3)和软演员-评论家(SAC)进行了实证比较。与广泛报道的MDP结果(其中TD3和SAC通常优于PPO)相反,我们观察到逆转:PPO在部分可观测条件下获得了更高的鲁棒性。我们将此归因于多步自举法的稳定化效应。此外,将多步目标纳入TD3(MTD3)和SAC(MSAC)可提升其鲁棒性。这些发现为在无需引入新理论机制的情况下,选择与调整部分可观测设置中的DRL算法提供了实用指导。

0
下载
关闭预览

相关内容

《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
《分布式多智能体深度强化学习:竞争性博弈》最新论文
专知会员服务
131+阅读 · 2023年3月16日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
专知会员服务
115+阅读 · 2020年12月31日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
「基于通信的多智能体强化学习」 进展综述
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
16+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
深度强化学习简介
专知
30+阅读 · 2018年12月3日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
VIP会员
最新内容
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
0+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
0+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
11+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
3+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
2+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
9+阅读 · 6月25日
相关VIP内容
《可解释深度强化学习综述》
专知会员服务
40+阅读 · 2025年2月12日
多智能体深度强化学习研究进展
专知会员服务
76+阅读 · 2024年7月17日
《分布式多智能体深度强化学习:竞争性博弈》最新论文
专知会员服务
131+阅读 · 2023年3月16日
基于模型的强化学习综述
专知会员服务
48+阅读 · 2023年1月9日
【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习
专知会员服务
115+阅读 · 2020年12月31日
最新《经济学中的强化学习》2020大综述,42页pdf128篇文献
【综述】自动驾驶领域中的强化学习,附18页论文下载
专知会员服务
176+阅读 · 2020年2月8日
相关资讯
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员