On-policy reinforcement learning (RL) algorithms have demonstrated great potential in robotic control, where effective exploration is crucial for efficient and high-quality policy learning. However, how to encourage the agent to explore the better trajectories efficiently remains a challenge. Most existing methods incentivize exploration by maximizing the policy entropy or encouraging novel state visiting regardless of the potential state value. We propose a new form of directed exploration that uses analytical policy gradients from a differentiable dynamics model to inject task-aware, physics-guided guidance, thereby steering the agent towards high-reward regions for accelerated and more effective policy learning.


翻译:同策略强化学习算法在机器人控制中展现出巨大潜力,其中有效的探索对于高效且高质量的策略学习至关重要。然而,如何激励智能体高效探索更优轨迹仍是一个挑战。现有方法大多通过最大化策略熵或鼓励访问新颖状态来激励探索,而不考虑潜在状态价值。我们提出一种新型指导性探索方法,通过利用可微分动力学模型的分析性策略梯度注入任务感知的物理引导,从而引导智能体向高奖励区域移动,实现加速且更有效的策略学习。

0
下载
关闭预览

相关内容

深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
47+阅读 · 2025年10月30日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
基于课程学习的深度强化学习研究综述
专知会员服务
58+阅读 · 2022年11月28日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
强化学习的两大话题之一,仍有极大探索空间
AI科技评论
22+阅读 · 2020年8月22日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Arxiv
11+阅读 · 2023年9月22日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 50分钟前
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
深度强化学习与模仿学习导论
专知会员服务
25+阅读 · 2025年12月10日
《基于分层多智能体强化学习的逼真空战协同策略》
专知会员服务
47+阅读 · 2025年10月30日
【NTU博士论文】基于协作式多智能体强化学习的决策制定
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
基于课程学习的深度强化学习研究综述
专知会员服务
58+阅读 · 2022年11月28日
相关基金
国家自然科学基金
15+阅读 · 2016年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
12+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员