Multi-armed Bandit Learning on a Graph - 专知论文

会员服务 ·

0

赌博机/老虎机 · 图 · Learning · Extensibility · Principle ·

2023 年 3 月 20 日

Multi-armed Bandit Learning on a Graph

翻译：图上的多臂赌博机学习

Tianpeng Zhang,Kasper Johansson,Na Li

The multi-armed bandit(MAB) problem is a simple yet powerful framework that has been extensively studied in the context of decision-making under uncertainty. In many real-world applications, such as robotic applications, selecting an arm corresponds to a physical action that constrains the choices of the next available arms (actions). Motivated by this, we study an extension of MAB called the graph bandit, where an agent travels over a graph to maximize the reward collected from different nodes. The graph defines the agent's freedom in selecting the next available nodes at each step. We assume the graph structure is fully available, but the reward distributions are unknown. Built upon an offline graph-based planning algorithm and the principle of optimism, we design a learning algorithm, G-UCB, that balances long-term exploration-exploitation using the principle of optimism. We show that our proposed algorithm achieves $O(\sqrt{|S|T\log(T)}+D|S|\log T)$ learning regret, where $|S|$ is the number of nodes and $D$ is the diameter of the graph, which matches the theoretical lower bound $\Omega(\sqrt{|S|T})$ up to logarithmic factors. To our knowledge, this result is among the first tight regret bounds in non-episodic, un-discounted learning problems with known deterministic transitions. Numerical experiments confirm that our algorithm outperforms several benchmarks.

翻译：多臂赌博机（MAB）问题是一个简单而强大的框架，已在不确定性决策情境下得到广泛研究。在机器人等许多实际应用中，选择臂对应着一个物理动作，该动作会限制下一个可用臂（动作）的选择。受此启发，我们研究了MAB的一种扩展形式——图赌博机：智能体在图上移动以最大化从不同节点收集的奖励。图定义了智能体在每一步选择下一可用节点的自由度。我们假设图结构完全已知，但奖励分布未知。基于离线图规划算法和乐观原则，我们设计了学习算法G-UCB，通过乐观原则平衡长期探索与利用。我们证明了所提出算法实现了$O(\sqrt{|S|T\log(T)}+D|S|\log T)$的学习遗憾值，其中$|S|$为节点数，$D$为图的直径，该结果与理论下界$\Omega(\sqrt{|S|T})$仅相差对数因子。据我们所知，此结果是已知确定性转移的非回合制无折扣学习问题中首批紧致遗憾界之一。数值实验证实我们的算法优于多个基准方法。

0

相关内容

赌博机/老虎机

赌博机/老虎机

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

专知会员服务

31+阅读 · 2022年12月22日

机器学习损失函数概述，Loss Functions in Machine Learning

机器学习损失函数概述，Loss Functions in Machine Learning

专知会员服务

84+阅读 · 2022年3月19日

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

专知会员服务

55+阅读 · 2020年12月15日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

254+阅读 · 2020年4月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

关于具有奇异参数的偏微分方程边值问题与带双边反射的随机偏微分方程的研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图模型与增量学习的网络化智能视频监控研究

国家自然科学基金

0+阅读 · 2012年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

基于信息表示与传导机制的异质agent计算金融模型

国家自然科学基金

0+阅读 · 2011年12月31日

基于混合式学习分类器的协作多机器人系统的调度控制方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

固定参数可解算法在平面图问题的应用以及和整数线性规划的关系

国家自然科学基金

0+阅读 · 2009年12月31日

在鼻咽癌中调控关键抑癌基因TGFBR2的miRNAs的鉴定及功能研究

国家自然科学基金

0+阅读 · 2009年12月31日

可压Navier-Stokes方程及相关流体动力学方程研究

国家自然科学基金

0+阅读 · 2008年12月31日

$\texttt{BanditQ}:$ Fair Multi-Armed Bandits with Guaranteed Rewards per Arm

Arxiv

0+阅读 · 2023年5月9日

Deep Class-Incremental Learning: A Survey

Arxiv

13+阅读 · 2023年2月7日

Reinforcement Learning on Graph: A Survey

Arxiv

67+阅读 · 2022年4月13日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

A Survey on Multi-Task Learning

Arxiv

32+阅读 · 2021年3月29日

Generalized Multi-Relational Graph Convolution Network

Arxiv

10+阅读 · 2020年6月12日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

Arxiv

13+阅读 · 2018年9月7日

VIP会员

文章信息

相关主题

赌博机/老虎机

最新内容

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

10+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

10+阅读 · 6月24日

相关VIP内容

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

专知会员服务

31+阅读 · 2022年12月22日

机器学习损失函数概述，Loss Functions in Machine Learning

机器学习损失函数概述，Loss Functions in Machine Learning

专知会员服务

84+阅读 · 2022年3月19日

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

【ACML2020】张量网络机器学习:最近的进展和前沿，109页ppt

专知会员服务

55+阅读 · 2020年12月15日

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

【基于模型的强化学习的博弈论框架】A Game Theoretic Framework for Model Based Reinforcement Learning

专知会员服务

131+阅读 · 2020年4月19日

因果图，Causal Graphs，52页ppt

因果图，Causal Graphs，52页ppt

专知会员服务

254+阅读 · 2020年4月19日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

84+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

【ALT 2019 Tutorials】强化学习的探索性开发（Exploration-Exploitation in Reinforcement Learning）

专知会员服务

34+阅读 · 2019年3月21日

热门VIP内容

开通专知VIP会员享更多权益服务

巡飞弹与反无人机系统——现代战场的两大支柱

《北约数字教官网络发展路径》128页报告

无人机自主控制与人工智能：系统性综述

《打造“黄金舰队”》57页报告

相关资讯

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

直播 | Interpretable and Trustworthy Graph Geometric Deep Learning

图与推荐

2+阅读 · 2022年11月2日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

19篇ICML2019论文摘录选读！

19篇ICML2019论文摘录选读！

专知

28+阅读 · 2019年4月28日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

44+阅读 · 2019年1月3日

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

【论文推荐】最新七篇强化学习相关论文—逻辑约束、综述、多任务深度强化学习、参数服务器、事件抽取、分层强化学习、过拟合研究

专知

25+阅读 · 2018年4月29日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

【论文】图上的表示学习综述

【论文】图上的表示学习综述

机器学习研究会

15+阅读 · 2017年9月24日

相关论文

$\texttt{BanditQ}:$ Fair Multi-Armed Bandits with Guaranteed Rewards per Arm

Arxiv

0+阅读 · 2023年5月9日

Deep Class-Incremental Learning: A Survey

Arxiv

13+阅读 · 2023年2月7日

Reinforcement Learning on Graph: A Survey

Arxiv

67+阅读 · 2022年4月13日

Bayesian Deep Learning for Graphs

Arxiv

23+阅读 · 2022年2月24日

Neural Bellman-Ford Networks: A General Graph Neural Network Framework for Link Prediction

Arxiv

21+阅读 · 2021年6月16日

A Survey on Multi-Task Learning

Arxiv

32+阅读 · 2021年3月29日

Generalized Multi-Relational Graph Convolution Network

Arxiv

10+阅读 · 2020年6月12日

Multi-Task Feature Learning for Knowledge Graph Enhanced Recommendation

Arxiv

15+阅读 · 2019年1月23日

Deep Learning on Graphs: A Survey

Arxiv

53+阅读 · 2018年12月11日

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

HyperGCN: Hypergraph Convolutional Networks for Semi-Supervised Classification

Arxiv

13+阅读 · 2018年9月7日

相关基金

Poisson流形上的修正Hamilton方法

国家自然科学基金

0+阅读 · 2014年12月31日

Calderon问题和边界刚性问题

国家自然科学基金

0+阅读 · 2013年12月31日

关于具有奇异参数的偏微分方程边值问题与带双边反射的随机偏微分方程的研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图模型与增量学习的网络化智能视频监控研究

国家自然科学基金

0+阅读 · 2012年12月31日

高维数据的图模型学习与统计推断

国家自然科学基金

8+阅读 · 2012年12月31日

基于信息表示与传导机制的异质agent计算金融模型

国家自然科学基金

0+阅读 · 2011年12月31日

基于混合式学习分类器的协作多机器人系统的调度控制方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

固定参数可解算法在平面图问题的应用以及和整数线性规划的关系

国家自然科学基金

0+阅读 · 2009年12月31日

在鼻咽癌中调控关键抑癌基因TGFBR2的miRNAs的鉴定及功能研究

国家自然科学基金

0+阅读 · 2009年12月31日

可压Navier-Stokes方程及相关流体动力学方程研究

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员