Ballbot (i.e. Ball balancing robot) navigation usually relies on methods rooted in control theory (CT), and works that apply Reinforcement learning (RL) to the problem remain rare while generally being limited to specific subtasks (e.g. balance recovery). Unlike CT based methods, RL does not require (simplifying) assumptions about environment dynamics (e.g. the absence of slippage between the ball and the floor). In addition to this increased accuracy in modeling, RL agents can easily be conditioned on additional observations such as depth-maps without the need for explicit formulations from first principles, leading to increased adaptivity. Despite those advantages, there has been little to no investigation into the capabilities, data-efficiency and limitations of RL based methods for ballbot control and navigation. Furthermore, there is a notable absence of an open-source, RL-friendly simulator for this task. In this paper, we present an open-source ballbot simulation based on MuJoCo, and show that with appropriate conditioning on exteroceptive observations as well as reward shaping, policies learned by classical model-free RL methods are capable of effectively navigating through randomly generated uneven terrain, using a reasonable amount of data (four to five hours on a system operating at 500hz). Our code is made publicly available.


翻译:球型机器人(即球平衡机器人)的导航通常依赖于基于控制理论的方法,而将强化学习应用于该问题的研究仍然较少,且通常局限于特定子任务(例如平衡恢复)。与控制理论方法不同,强化学习不需要对环境动力学(例如球与地面之间无滑移)做出(简化)假设。除了建模精度提高之外,强化学习智能体可以轻松地以额外的观测(如深度图)为条件,而无需基于第一性原理进行显式公式推导,从而提高了适应性。尽管有这些优势,但对于基于强化学习的球型机器人控制和导航方法的能力、数据效率及局限性,目前几乎没有研究。此外,该任务明显缺乏一个开源的、对强化学习友好的模拟器。在本文中,我们提出了一个基于MuJoCo的开源球型机器人模拟器,并证明通过适当地以外感受观测为条件以及奖励塑形,经典无模型强化学习方法习得的策略能够有效地在随机生成的不平坦地形中导航,且仅需合理的数据量(在500赫兹运行的系统上约四到五小时)。我们的代码已公开。

0
下载
关闭预览

相关内容

强化学习(RL)是机器学习的一个领域,与软件代理应如何在环境中采取行动以最大化累积奖励的概念有关。除了监督学习和非监督学习外,强化学习是三种基本的机器学习范式之一。 强化学习与监督学习的不同之处在于,不需要呈现带标签的输入/输出对,也不需要显式纠正次优动作。相反,重点是在探索(未知领域)和利用(当前知识)之间找到平衡。 该环境通常以马尔可夫决策过程(MDP)的形式陈述,因为针对这种情况的许多强化学习算法都使用动态编程技术。经典动态规划方法和强化学习算法之间的主要区别在于,后者不假设MDP的确切数学模型,并且针对无法采用精确方法的大型MDP。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
《机器人强化学习技术进展》34页
专知会员服务
38+阅读 · 2025年7月16日
【斯坦福博士论文】非平稳环境中的深度强化学习算法
专知会员服务
32+阅读 · 2024年12月9日
《用于水下目标定位的平台便携式强化学习方法》
专知会员服务
27+阅读 · 2024年1月2日
「强化学习在无人车领域」的应用与展望
专知会员服务
58+阅读 · 2022年12月8日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
48+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员