Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning - 专知论文

会员服务 ·

0

单智能体 · 最优 · 算法 · 智能体 · 间隙 ·

Regret-Optimal Q-Learning with Low Cost for Single-Agent and Federated Reinforcement Learning

翻译：遗憾最优的低成本Q学习及其在单智能体与联邦强化学习中的应用

Haochen Zhang,Zhong Zheng,Lingzhou Xue

from arxiv, arXiv admin note: text overlap with arXiv:2502.02859

Motivated by real-world settings where data collection and policy deployment -- whether for a single agent or across multiple agents -- are costly, we study the problem of on-policy single-agent reinforcement learning (RL) and federated RL (FRL) with a focus on minimizing burn-in costs (the sample sizes needed to reach near-optimal regret) and policy switching or communication costs. In parallel finite-horizon episodic Markov Decision Processes (MDPs) with $S$ states and $A$ actions, existing methods either require superlinear burn-in costs in $S$ and $A$ or fail to achieve logarithmic switching or communication costs. We propose two novel model-free RL algorithms -- Q-EarlySettled-LowCost and FedQ-EarlySettled-LowCost -- that are the first in the literature to simultaneously achieve: (i) the best near-optimal regret among all known model-free RL or FRL algorithms, (ii) low burn-in cost that scales linearly with $S$ and $A$, and (iii) logarithmic policy switching cost for single-agent RL or communication cost for FRL. Additionally, we establish gap-dependent theoretical guarantees for both regret and switching/communication costs, improving or matching the best-known gap-dependent bounds.

翻译：受现实场景中数据收集与策略部署（无论是单智能体还是多智能体）成本高昂的驱动，本研究聚焦于在线策略的单智能体强化学习（RL）与联邦强化学习（FRL），重点关注最小化启动成本（达到接近最优遗憾所需的样本量）以及策略切换或通信成本。在具有$S$个状态和$A$个动作的并行有限时域片段马尔可夫决策过程（MDP）中，现有方法要么需要$S$和$A$的超线性启动成本，要么无法实现对数级的策略切换或通信成本。我们提出了两种新颖的无模型RL算法——Q-EarlySettled-LowCost与FedQ-EarlySettled-LowCost——它们是文献中首次同时实现以下目标的算法：（i）在所有已知无模型RL或FRL算法中达到最佳接近最优遗憾，（ii）具有与$S$和$A$呈线性比例的低启动成本，以及（iii）对单智能体RL实现对数级策略切换成本或对FRL实现对数级通信成本。此外，我们为遗憾及切换/通信成本建立了间隙依赖的理论保证，改进或匹配了已知的最佳间隙依赖界。

0

相关内容

单智能体

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

《改进单智能体和多智能体深度强化学习方法》219页

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

62+阅读 · 2025年2月14日

【博士论文】单智能体与多智能体深度强化学习中的高效探索

【博士论文】单智能体与多智能体深度强化学习中的高效探索

专知会员服务

40+阅读 · 2025年2月6日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《多智能体强化学习策略优化算法设计》226页

《多智能体强化学习策略优化算法设计》226页

专知会员服务

64+阅读 · 2024年6月9日

《网络战仿真中的多智能体强化学习》最新42页报告

《网络战仿真中的多智能体强化学习》最新42页报告

专知会员服务

46+阅读 · 2023年7月11日

《深度强化学习在集群系统中的应用》31页论文

《深度强化学习在集群系统中的应用》31页论文

专知会员服务

60+阅读 · 2023年3月14日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

最新《联邦学习Federated Learning》报告，Federated Learning

最新《联邦学习Federated Learning》报告，Federated Learning

专知会员服务

92+阅读 · 2020年12月2日

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Arxiv

0+阅读 · 3月18日

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Arxiv

0+阅读 · 3月9日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

FedSGT: Exact Federated Unlearning via Sequential Group-based Training

Arxiv

0+阅读 · 3月2日

Catastrophic Forgetting Resilient One-Shot Incremental Federated Learning

Arxiv

0+阅读 · 2月19日

SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent

Arxiv

0+阅读 · 2月12日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Provable Domain Adaptation for Offline Reinforcement Learning with Limited Samples

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

《单智能体与多智能体深度强化学习方法的优化研究》219页

《单智能体与多智能体深度强化学习方法的优化研究》219页

专知会员服务

51+阅读 · 2025年4月5日

《改进单智能体和多智能体深度强化学习方法》219页

《改进单智能体和多智能体深度强化学习方法》219页

专知会员服务

62+阅读 · 2025年2月14日

【博士论文】单智能体与多智能体深度强化学习中的高效探索

【博士论文】单智能体与多智能体深度强化学习中的高效探索

专知会员服务

40+阅读 · 2025年2月6日

自动驾驶中的多智能体强化学习综述

自动驾驶中的多智能体强化学习综述

专知会员服务

47+阅读 · 2024年8月20日

《多智能体强化学习策略优化算法设计》226页

《多智能体强化学习策略优化算法设计》226页

专知会员服务

64+阅读 · 2024年6月9日

《网络战仿真中的多智能体强化学习》最新42页报告

《网络战仿真中的多智能体强化学习》最新42页报告

专知会员服务

46+阅读 · 2023年7月11日

《深度强化学习在集群系统中的应用》31页论文

《深度强化学习在集群系统中的应用》31页论文

专知会员服务

60+阅读 · 2023年3月14日

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

牛津斯坦福等最新《元强化学习》综述，53页pdf全面阐述元强化学习方法与应用

专知会员服务

66+阅读 · 2023年1月26日

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

【“大量”智能体的强化学习】《Many-Agent Reinforcement Learning》，327页博士论文，伦敦大学学院（UCL）

专知会员服务

119+阅读 · 2022年5月7日

最新《联邦学习Federated Learning》报告，Federated Learning

最新《联邦学习Federated Learning》报告，Federated Learning

专知会员服务

92+阅读 · 2020年12月2日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

「基于通信的多智能体强化学习」进展综述

「基于通信的多智能体强化学习」进展综述

专知

32+阅读 · 2022年11月12日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

联邦学习如何用于医疗？Deakin最新《联邦学习智慧医疗》综述论文全面阐述联邦学习在医疗的应用

专知

14+阅读 · 2021年11月27日

最新《联邦学习Federated Learning》报告，47页ppt

最新《联邦学习Federated Learning》报告，47页ppt

专知

48+阅读 · 2020年12月2日

【综述】多智能体强化学习算法理论研究

【综述】多智能体强化学习算法理论研究

深度强化学习实验室

16+阅读 · 2020年9月9日

多智能体强化学习（MARL）近年研究概览

多智能体强化学习（MARL）近年研究概览

PaperWeekly

38+阅读 · 2020年3月15日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

QuantFL: Sustainable Federated Learning for Edge IoT via Pre-Trained Model Quantisation

Arxiv

0+阅读 · 3月18日

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Arxiv

0+阅读 · 3月9日

Accelerating Robotic Reinforcement Learning with Agent Guidance

Arxiv

0+阅读 · 3月7日

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Arxiv

0+阅读 · 3月7日

FedSGT: Exact Federated Unlearning via Sequential Group-based Training

Arxiv

0+阅读 · 3月2日

Catastrophic Forgetting Resilient One-Shot Incremental Federated Learning

Arxiv

0+阅读 · 2月19日

SIGHT: Reinforcement Learning with Self-Evidence and Information-Gain Diverse Branching for Search Agent

Arxiv

0+阅读 · 2月12日

Provably Optimal Reinforcement Learning under Safety Filtering

Arxiv

0+阅读 · 2月11日

Learning to Coordinate via Quantum Entanglement in Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2月11日

Provable Domain Adaptation for Offline Reinforcement Learning with Limited Samples

Arxiv

0+阅读 · 2月7日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构学习的非平行支持向量机最优化方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员