Training resource-constrained autonomous agents on multiple tasks simultaneously is crucial for adapting to diverse real-world environments. Recent works employ reinforcement learning (RL) approach, but they still suffer from sub-optimal multi-task performance due to task interference. State-of-the-art works employ Spiking Neural Networks (SNNs) to improve RL-based multi-task learning and enable low-power/energy operations through network enhancements and spike-driven data stream processing. However, they rely on fixed task-switching intervals during its training, thus limiting its performance and scalability. To address this, we propose SwitchMT, a novel methodology that employs adaptive task-switching for effective, scalable, and simultaneous multi-task learning. SwitchMT employs the following key ideas: (1) leveraging a Deep Spiking Q-Network with active dendrites and dueling structure, that utilizes task-specific context signals to create specialized sub-networks; and (2) devising an adaptive task-switching policy that leverages both rewards and internal dynamics of the network parameters. Experimental results demonstrate that SwitchMT achieves competitive scores in multiple Atari games (i.e., Pong: -8.8, Breakout: 5.6, and Enduro: 355.2) and longer game episodes as compared to the state-of-the-art. These results also highlight the effectiveness of SwitchMT methodology in addressing task interference without increasing the network complexity, enabling intelligent autonomous agents with scalable multi-task learning capabilities.


翻译:训练资源受限的自主体同时处理多任务对于适应多样化真实环境至关重要。现有研究采用强化学习方法,但因任务干扰导致多任务性能欠佳。最新工作通过引入脉冲神经网络,结合网络增强与脉冲驱动数据流处理,在提升强化学习多任务性能的同时实现低功耗运行。然而这些方法在训练过程中依赖固定任务切换间隔,限制了性能与可扩展性。为此,本文提出SwitchMT——一种采用自适应任务切换的新型方法,实现高效、可扩展的多任务同步学习。SwitchMT的核心创新包括:(1)构建具有活跃树突与决斗结构的深度脉冲Q网络,利用任务特定上下文信号生成专用子网络;(2)设计融合奖励信号与网络参数内部动态的自适应任务切换策略。实验结果表明,SwitchMT在多项Atari游戏中取得具有竞争力的得分(如Pong: -8.8、Breakout: 5.6、Enduro: 355.2),且游戏回合持续时间显著优于现有方法。这些结果充分验证了SwitchMT在不增加网络复杂度前提下解决任务干扰的有效性,为智能自主体赋予可扩展的多任务学习能力。

0
下载
关闭预览

相关内容

基于脉冲神经网络的边缘智能
专知会员服务
21+阅读 · 2025年7月23日
基于学习机制的多智能体强化学习综述
专知会员服务
63+阅读 · 2024年4月16日
基于多智能体深度强化学习的体系任务分配方法
专知会员服务
158+阅读 · 2023年5月4日
【斯坦福大学】Gradient Surgery for Multi-Task Learning
专知会员服务
47+阅读 · 2020年1月23日
「基于通信的多智能体强化学习」 进展综述
脉冲神经网络(SNN)概述
人工智能前沿讲习班
62+阅读 · 2019年5月30日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
1+阅读 · 今天16:54
Agentic RL:框架、实践与长程智能体训练
专知会员服务
1+阅读 · 今天16:52
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
24+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员