Exploration in deep reinforcement learning (RL) is commonly implemented as temporally uncorrelated white noise. However, recent works show that temporally correlated colored noise can improve exploration efficiency by producing smooth trajectories with better coverage of the state space. We inquire whether action noise inspired by infant spontaneous movements can also improve exploration in deep RL. We find that the power spectral densities of babies' end-effector velocities follow a colored noise process where the spectral exponent increases with age. Inspired by this developmental pattern, we introduce a mechanism that progressively increases the temporal auto-correlation of exploration noise during RL training, matching the infant statistics. Experiments across several RL environments show that infant-inspired noise produces structured exploratory behavior and can improve learning efficiency compared to conventional exploration strategies. These findings suggest that human motor and cognitive development can provide useful guidance for designing learning mechanisms in artificial agents. Our code is available at https://github.com/trieschlab/baby-noise-rl.


翻译:在深度强化学习(RL)中,探索通常通过时间上不相关的白噪声实现。然而,近期研究表明,时间上相关的有色噪声可通过生成更平滑的状态空间覆盖轨迹来提升探索效率。我们探究了受婴儿自发运动启发的动作噪声是否能同样改善深度强化学习中的探索性能。研究发现,婴儿末端执行器速度的功率谱密度遵循有色噪声过程,且谱指数随年龄增长而增加。受这一发育模式的启发,我们提出一种机制,在强化学习训练过程中逐步增加探索噪声的时间自相关性,使其与婴儿统计特性相匹配。在多个强化学习环境中的实验表明,婴儿启发式噪声能产生结构化的探索行为,相较于传统探索策略可提升学习效率。这些发现暗示,人类运动与认知发育可为人工代理学习机制设计提供有益指导。我们的代码开源在 https://github.com/trieschlab/baby-noise-rl。

0
下载
关闭预览

相关内容

【ICML2024】深度强化学习中的随机潜在探索
专知会员服务
20+阅读 · 2024年7月19日
基于内在动机的深度强化学习探索方法综述
专知会员服务
40+阅读 · 2023年5月13日
牛津大学、谷歌等十余位学者《自动强化学习》撰文综述
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员