Motivated by real-world settings where data collection and policy deployment -- whether for a single agent or across multiple agents -- are costly, we study the problem of on-policy single-agent reinforcement learning (RL) and federated RL (FRL) with a focus on minimizing burn-in costs (the sample sizes needed to reach near-optimal regret) and policy switching or communication costs. In parallel finite-horizon episodic Markov Decision Processes (MDPs) with $S$ states and $A$ actions, existing methods either require superlinear burn-in costs in $S$ and $A$ or fail to achieve logarithmic switching or communication costs. We propose two novel model-free RL algorithms -- Q-EarlySettled-LowCost and FedQ-EarlySettled-LowCost -- that are the first in the literature to simultaneously achieve: (i) the best near-optimal regret among all known model-free RL or FRL algorithms, (ii) low burn-in cost that scales linearly with $S$ and $A$, and (iii) logarithmic policy switching cost for single-agent RL or communication cost for FRL. Additionally, we establish gap-dependent theoretical guarantees for both regret and switching/communication costs, improving or matching the best-known gap-dependent bounds.


翻译:受现实场景中数据收集与策略部署(无论是单智能体还是多智能体)成本高昂的驱动,本研究聚焦于在线策略的单智能体强化学习(RL)与联邦强化学习(FRL),重点关注最小化启动成本(达到接近最优遗憾所需的样本量)以及策略切换或通信成本。在具有$S$个状态和$A$个动作的并行有限时域片段马尔可夫决策过程(MDP)中,现有方法要么需要$S$和$A$的超线性启动成本,要么无法实现对数级的策略切换或通信成本。我们提出了两种新颖的无模型RL算法——Q-EarlySettled-LowCost与FedQ-EarlySettled-LowCost——它们是文献中首次同时实现以下目标的算法:(i)在所有已知无模型RL或FRL算法中达到最佳接近最优遗憾,(ii)具有与$S$和$A$呈线性比例的低启动成本,以及(iii)对单智能体RL实现对数级策略切换成本或对FRL实现对数级通信成本。此外,我们为遗憾及切换/通信成本建立了间隙依赖的理论保证,改进或匹配了已知的最佳间隙依赖界。

0
下载
关闭预览

相关内容

《改进单智能体和多智能体深度强化学习方法》219页
专知会员服务
62+阅读 · 2025年2月14日
自动驾驶中的多智能体强化学习综述
专知会员服务
47+阅读 · 2024年8月20日
《多智能体强化学习策略优化算法设计》226页
专知会员服务
64+阅读 · 2024年6月9日
《网络战仿真中的多智能体强化学习》最新42页报告
专知会员服务
46+阅读 · 2023年7月11日
《深度强化学习在集群系统中的应用》31页论文
专知会员服务
60+阅读 · 2023年3月14日
最新《联邦学习Federated Learning》报告,Federated Learning
专知会员服务
92+阅读 · 2020年12月2日
「基于通信的多智能体强化学习」 进展综述
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
【MIT博士论文】数据高效强化学习,176页pdf
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
多智能体强化学习(MARL)近年研究概览
PaperWeekly
38+阅读 · 2020年3月15日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
VIP会员
最新内容
无人机与反无人机系统(书籍)
专知会员服务
11+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
2+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
8+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
5+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
7+阅读 · 4月13日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
国家自然科学基金
49+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员