In our work we implicitly suggest that it is a misconception to think that humans learn fast. The learning process takes time. Babies start learning to move in the restricted fluid environment of the womb. Children are often limited by underdeveloped body. Even adults are not allowed to participate in complex competitions right away. However, with robots, when learning from scratch, we often don't have the privilege of waiting for tens of millions of steps. "Swaddling" regularization is responsible for restraining an agent in rapid but unstable development penalizing action strength in a specific way not affecting actions directly. The Symphony, Transitional-policy Deterministic Actor and Critic algorithm, is a concise combination of different ideas for possibility of training humanoid robots from scratch with Sample Efficiency, Sample Proximity and Safety of Actions in mind. It is well known that continuous increase in Gaussian noise without appropriate smoothing is harmful for motors and gearboxes. Compared to Stochastic algorithms, we set limited parametric noise and promote a reduced strength of actions, safely increasing entropy, since the actions are submerged in weaker noise. When actions require more extreme values, actions rise above the weak noise. Training becomes empirically much safer for both the environment around and the robot's mechanisms. We use Fading Replay Buffer: using a fixed formula containing the hyperbolic tangent, we adjust the batch sampling probability: the memory contains a recent memory and a long-term memory trail. Fading Replay Buffer allows us to use Temporal Advantage when we improve the current Critic Network prediction compared to the exponential moving average. Temporal Advantage allows us to update the Actor and Critic in one pass, as well as combine the Actor and Critic in one Object and implement their Losses in one line.


翻译:在我们的工作中,我们隐晦地指出,认为人类学习速度快的观点是一种误解。学习过程需要时间。婴儿在子宫这一受限的流体环境中开始学习运动。儿童常常受限于未发育成熟的身体。即使是成年人,也无法立即参与复杂的竞赛。然而,对于机器人而言,当从零开始学习时,我们通常没有等待数千万步的奢侈条件。"襁褓"正则化旨在约束智能体在快速但不稳定的发展过程中,以特定方式惩罚动作强度而不直接影响动作本身。Symphony(过渡策略确定性演员-评论家算法)是多种思想的简洁结合,旨在实现从零开始训练人形机器人,并兼顾样本效率、样本邻近性和动作安全性。众所周知,高斯噪声的持续增加若未经适当平滑处理,会对电机和齿轮箱造成损害。相较于随机算法,我们设置了有限的参数噪声,并促进降低动作强度,从而安全地增加熵,因为动作被淹没在较弱的噪声中。当动作需要更极端的值时,动作会从弱噪声中凸显出来。经验表明,这种训练方式对周围环境和机器人机构都更为安全。我们使用衰减回放缓冲区:通过一个包含双曲正切函数的固定公式,我们调整批次采样概率:记忆包含近期记忆和长期记忆轨迹。衰减回放缓冲区使我们能够在改进当前评论家网络预测(相较于指数移动平均)时利用时序优势。时序优势允许我们在一次前向传播中更新演员和评论家,同时将演员和评论家组合在一个对象中,并在单行代码中实现它们的损失函数。

0
下载
关闭预览

相关内容

【斯坦福博士论文】协作多机器人学习算法
专知会员服务
17+阅读 · 2025年1月6日
不可错过!普林斯顿《机器人导论》课程,附Slides
专知会员服务
27+阅读 · 2022年12月18日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
独家 | 带你认识机器学习的的本质(附资料)
数据派THU
22+阅读 · 2019年3月13日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
从示例中理解SVM算法(附代码)
论智
10+阅读 · 2018年5月10日
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
0+阅读 · 今天14:36
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
6+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
4+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
2+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
5+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
8+阅读 · 今天3:12
相关资讯
独家 | 带你认识机器学习的的本质(附资料)
数据派THU
22+阅读 · 2019年3月13日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
从示例中理解SVM算法(附代码)
论智
10+阅读 · 2018年5月10日
第二章 机器学习中的数学基础
Datartisan数据工匠
12+阅读 · 2018年4月5日
机器学习必备手册
机器学习研究会
19+阅读 · 2017年10月24日
报名 | 让机器读懂你的意图——人体姿态估计入门
人工智能头条
10+阅读 · 2017年9月19日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员