We study online resource allocation among N interacting modules over T rounds. Unlike standard online optimization, costs are endogenous: they depend on the full allocation vector through an interaction matrix W encoding pairwise cooperation and competition. We analyze three paradigms: (I) uniform allocation (cost-ignorant), (II) gated allocation (cost-estimating), and (III) competitive allocation via multiplicative weights update with interaction feedback (cost-revealing). Our main results establish a strict separation under adversarial sequences with bounded variation: uniform incurs Omega(T) regret, gated achieves O(T^{2/3}), and competitive achieves O(sqrt(T log N)). The performance gap stems from competitive allocation's ability to exploit endogenous cost information revealed through interactions. We further show that W's topology governs a computation-regret tradeoff. Full interaction (|E|=O(N^2)) yields the tightest bound but highest per-step cost, while sparse topologies (|E|=O(N)) increase regret by at most O(sqrt(log N)) while reducing per-step cost from O(N^2) to O(N). Ring-structured topologies with both cooperative and competitive links - of which the five-element Wuxing topology is canonical - minimize the computation x regret product. These results provide the first formal regret-theoretic justification for decentralized competitive allocation in modular architectures and establish cost endogeneity as a fundamental challenge distinct from partial observability. Keywords: online learning, regret bounds, resource allocation, endogenous costs, interaction topology, multiplicative weights, modular systems, Wuxing topology


翻译:我们研究了N个交互模块在T轮在线资源分配中的问题。与标准的在线优化不同,成本是内生的:它们通过编码成对合作与竞争的交互矩阵W依赖于完整的分配向量。我们分析了三种范式:(I) 均匀分配(忽略成本)、(II) 门控分配(估计成本)、以及(III) 通过交互反馈的乘法权重更新进行竞争性分配(揭示成本)。我们的主要结果在具有有界变化的对抗性序列下建立了严格的区分:均匀分配产生了Ω(T)的遗憾,门控分配达到了O(T^{2/3}),而竞争性分配实现了O(√(T log N))。性能差距源于竞争性分配能够利用通过交互揭示的内生成本信息。我们进一步表明,W的拓扑结构决定了计算-遗憾权衡。完全交互(|E|=O(N^2))产生了最紧的界但最高的每步成本,而稀疏拓扑(|E|=O(N))将遗憾最多增加O(√(log N)),同时将每步成本从O(N^2)降低到O(N)。具有合作与竞争链接的环状拓扑——其中五元素五行拓扑是典范——最小化了计算与遗憾的乘积。这些结果首次为模块化架构中的去中心化竞争性分配提供了形式化的遗憾理论依据,并将成本内生性确立为一个不同于部分可观测性的基本挑战。关键词:在线学习,遗憾界,资源分配,内生成本,交互拓扑,乘法权重,模块化系统,五行拓扑

0
下载
关闭预览

相关内容

《指挥控制网络鲁棒性度量研究》100页
专知会员服务
23+阅读 · 2025年11月22日
博弈论应用《互补战场上的多场战斗对抗》
专知会员服务
27+阅读 · 2024年1月30日
《在互补战场上进行多场战斗》
专知会员服务
19+阅读 · 2024年1月20日
《资源分配博弈中的收敛率》
专知会员服务
42+阅读 · 2023年3月10日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
样本贡献不均:Focal Loss和 Gradient Harmonizing Mechanism
从信息论的角度来理解损失函数
深度学习每日摘要
17+阅读 · 2019年4月7日
论文浅尝 | Global Relation Embedding for Relation Extraction
开放知识图谱
12+阅读 · 2019年3月3日
换个角度看GAN:另一种损失函数
机器之心
16+阅读 · 2019年1月1日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
在TensorFlow中对比两大生成模型:VAE与GAN
机器之心
12+阅读 · 2017年10月23日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关资讯
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员