This paper investigates the Restless Multi-Armed Bandit (RMAB) framework under individual penalty constraints to address resource allocation challenges in dynamic wireless networked environments. Unlike conventional RMAB models, our model allows each user (arm) to have distinct and stringent performance constraints, such as energy limits, activation limits, or age of information minimums, enabling the capture of diverse objectives including fairness and efficiency. To find the optimal resource allocation policy, we propose a new Penalty-Optimal Whittle (POW) index policy. The POW index of an user only depends on the user's transition kernel and penalty constraints, and remains invariable to system-wide features such as the number of users present and the amount of resource available. This makes it computationally tractable to calculate the POW indices offline without any need for online adaptation. Moreover, we theoretically prove that the POW index policy is asymptotically optimal while satisfying all individual penalty constraints. We also introduce a deep reinforcement learning algorithm to efficiently learn the POW index on the fly. Simulation results across various applications and system configurations further demonstrate that the POW index policy not only has near-optimal performance but also significantly outperforms other existing policies.


翻译:本文研究了个体惩罚约束下的动荡多臂赌博机(RMAB)框架,以应对动态无线网络环境中的资源分配挑战。与传统的RMAB模型不同,我们的模型允许每个用户(臂)具有独特且严格的性能约束,例如能量限制、激活限制或信息时代最小值,从而能够捕捉包括公平性和效率在内的多样化目标。为寻求最优资源分配策略,我们提出了一种新的惩罚最优惠特尔(POW)指标策略。用户的POW指标仅取决于该用户的转移核心和惩罚约束,而与系统全局特征(如用户数量和可用资源量)无关。这使得POW指标可离线计算,无需在线自适应,从而在计算上易于处理。此外,我们从理论上证明,POW指标策略在满足所有个体惩罚约束的前提下是渐近最优的。我们还引入了一种深度强化学习算法,以在线高效学习POW指标。跨多种应用和系统配置的仿真结果进一步表明,POW指标策略不仅具有近最优性能,而且显著优于其他现有策略。

0
下载
关闭预览

相关内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》
专知会员服务
28+阅读 · 2025年12月31日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
56+阅读 · 2022年11月2日
DeepMind:用PopArt进行多任务深度强化学习
论智
30+阅读 · 2018年9月14日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《抗干扰协同无人机中继网络的多智能体深度强化学习》
专知会员服务
28+阅读 · 2025年12月31日
《分布式多智能体强化学习的编码》加州大学等
专知会员服务
56+阅读 · 2022年11月2日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员