Training resource-constrained autonomous agents on multiple tasks simultaneously is crucial for adapting to diverse real-world environments. Recent works employ reinforcement learning (RL) approach, but they still suffer from sub-optimal multi-task performance due to task interference. State-of-the-art works employ Spiking Neural Networks (SNNs) to improve RL-based multi-task learning and enable low-power/energy operations through network enhancements and spike-driven data stream processing. However, they rely on fixed task-switching intervals during its training, thus limiting its performance and scalability. To address this, we propose SwitchMT, a novel methodology that employs adaptive task-switching for effective, scalable, and simultaneous multi-task learning. SwitchMT employs the following key ideas: (1) leveraging a Deep Spiking Q-Network with active dendrites and dueling structure, that utilizes task-specific context signals to create specialized sub-networks; and (2) devising an adaptive task-switching policy that leverages both rewards and internal dynamics of the network parameters. Experimental results demonstrate that SwitchMT achieves competitive scores in multiple Atari games (i.e., Pong: -8.8, Breakout: 5.6, and Enduro: 355.2) and longer game episodes as compared to the state-of-the-art. These results also highlight the effectiveness of SwitchMT methodology in addressing task interference without increasing the network complexity, enabling intelligent autonomous agents with scalable multi-task learning capabilities.


翻译:训练资源受限的自主代理同时执行多种任务对于适应多样的真实环境至关重要。现有工作采用强化学习(RL)方法,但由于任务干扰,其多任务性能仍次优。前沿工作通过脉冲神经网络(SNN)改进基于强化学习的多任务学习,并借助网络增强和脉冲驱动数据流处理实现低功耗/低能量运行。然而,这些方法在训练过程中依赖固定的任务切换间隔,从而限制了其性能与可扩展性。为解决这一问题,我们提出SwitchMT——一种采用自适应任务切换实现高效、可扩展且同步多任务学习的新方法。SwitchMT包含以下核心思想:(1)利用具有主动树突和决斗结构的深度脉冲Q网络,通过任务特定上下文信号创建专用子网络;(2)设计一种自适应任务切换策略,同时利用奖励和网络参数的内部动态特性。实验结果表明,在多个Atari游戏(如Pong:-8.8、Breakout:5.6、Enduro:355.2)中,SwitchMT取得了有竞争力的分数,并实现了比现有技术更长的游戏回合。这些结果还凸显了SwitchMT方法在不增加网络复杂度的前提下解决任务干扰的有效性,使智能自主代理具备可扩展的多任务学习能力。

0
下载
关闭预览

相关内容

脉冲神经网络的架构原理、数据集和训练方法
专知会员服务
23+阅读 · 2024年8月13日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
47+阅读 · 2023年7月11日
【牛津大学博士论文】元强化学习的快速自适应,217页pdf
专知会员服务
106+阅读 · 2022年9月19日
专知会员服务
66+阅读 · 2021年7月25日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
「基于通信的多智能体强化学习」 进展综述
综述| 当图神经网络遇上强化学习
图与推荐
35+阅读 · 2022年7月1日
当深度强化学习遇见图神经网络
专知
227+阅读 · 2019年10月21日
脉冲神经网络,下一代机器学习?
专知
13+阅读 · 2018年1月13日
前沿 | 简述脉冲神经网络SNN:下一代神经网络
机器之心
39+阅读 · 2018年1月13日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员