We study the Lagrangian Index Policy (LIP) for restless multi-armed bandits with long-run average reward. In particular, we compare the performance of LIP with the performance of the Whittle Index Policy (WIP), both heuristic policies known to be asymptotically optimal under certain natural conditions. Even though in most cases their performances are very similar, in the cases when WIP shows bad performance, LIP continues to perform very well. We then propose reinforcement learning algorithms, both tabular and NN-based, to obtain online learning schemes for LIP in the model-free setting. The proposed reinforcement learning schemes for LIP require significantly less memory than the analogous schemes for WIP. We calculate analytically the Lagrangian index for the restart model, which applies to the optimal web crawling and the minimization of the weighted age of information. We also give a new proof of asymptotic optimality in case of homogeneous arms as the number of arms goes to infinity, based on exchangeability and de Finetti's theorem.


翻译:我们研究了针对具有长期平均奖励的不安定多臂老虎机问题的拉格朗日指数策略。具体而言,我们将LIP的性能与Whittle指数策略的性能进行了比较,这两种启发式策略在特定自然条件下均已知是渐近最优的。尽管在大多数情况下它们的性能非常相似,但在WIP表现不佳的情况下,LIP仍然能保持优异的性能。随后,我们提出了基于表格和神经网络的强化学习算法,以在无模型设置下为LIP实现在线学习方案。所提出的LIP强化学习方案比类似的WIP方案所需的内存显著减少。我们解析计算了重启模型的拉格朗日指数,该模型适用于最优网络爬取和加权信息年龄最小化问题。此外,基于可交换性和de Finetti定理,我们为同质臂情形(当臂的数量趋于无穷时)的渐近最优性提供了一个新的证明。

0
下载
关闭预览

相关内容

改进型深度确定性策略梯度的无人机路径规划
专知会员服务
14+阅读 · 2025年5月1日
【AAAI2022】自适应的随机平滑防御的鲁棒性认证方法
专知会员服务
26+阅读 · 2021年12月27日
【NeurIPS 2021】设置多智能体策略梯度的方差
专知会员服务
21+阅读 · 2021年10月24日
详解ORB-SLAM2中的特征均匀提取策略
计算机视觉life
11+阅读 · 2019年10月9日
数据分析师应该知道的16种回归技术:Lasso回归
数萃大数据
16+阅读 · 2018年8月13日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员