随机网络效用最大化一直是众多排队网络资源分配与控制问题的主流框架。其原始模型旨在优化社会福利,通常表现为参与实体局部效用之和的形式。然而,这种集中式效用最大化方法并不适用于许多现代多智能体系统,因为每个智能体可能会自私地优化其自身局部效用,而不考虑整体效用。本文将战略排队系统中的随机网络效用最大化问题构建为一个带有队列稳定性约束的重复博弈。具体而言,智能体需反复做出决策,在满足其局部约束和共享的全局约束的同时,维持队列稳定性。目标是设计一个构成该博弈广义纳什均衡的策略。
首先通过一个静态一次性博弈的构建,推导出战略排队网络效用最大化问题的流体模型特征。这一特征启发了一种原始-对偶算法,该算法通过确保最后一次迭代收敛于正则化静态一次性博弈的一个解,从而构成一个近似的广义纳什均衡。然而,与为经典网络效用最大化问题开发的原始-对偶方法类似,此方法在决策中未利用实时队列长度,导致实践中排队延迟不理想,且缺乏明确的性能保证。为此,我们提出了战略漂移加惩罚算法,并证明其构成一个𝜀-广义纳什均衡,且对任意𝜀 > 0,其期望队列长度均匀有界,阶为𝑂(1/𝜀^3)。在一个对广泛问题类别都成立的附加温和假设下,证明了算法实现的社会福利长期平均值,能够任意接近一个福利最大化的广义纳什均衡策略的水平。仿真结果验证了我们的理论,并展示了算法的优越性能。