Network routing is a distributed decision problem which naturally admits numerical performance measures, such as the average time for a packet to travel from source to destination. OLPOMDP, a policy-gradient reinforcement learning algorithm, was successfully applied to simulated network routing under a number of network models. Multiple distributed agents (routers) learned co-operative behavior without explicit inter-agent communication, and they avoided behavior which was individually desirable, but detrimental to the group's overall performance. Furthermore, shaping the reward signal by explicitly penalizing certain patterns of sub-optimal behavior was found to dramatically improve the convergence rate.


翻译:网络路由是一个分布式决策问题,天然适用于数值化性能度量,例如数据包从源到目的地的平均传输时间。OLPOMDP作为一种策略梯度强化学习算法,在多种网络模型下成功应用于模拟网络路由。多个分布式智能体(路由器)在没有显式智能体间通信的情况下学会了协作行为,并避免了那些对个体有利但损害整体性能的行为。此外,通过显式惩罚某些次优行为模式来塑造奖励信号,被发现能显著提高收敛速度。

0
下载
关闭预览

相关内容

【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【AAAI2023】图序注意力网络
专知会员服务
46+阅读 · 2022年11月24日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
38+阅读 · 2021年5月28日
专知会员服务
30+阅读 · 2021年2月26日
专知会员服务
24+阅读 · 2020年9月15日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
40+阅读 · 2020年8月26日
图节点嵌入(Node Embeddings)概述,9页pdf
专知
15+阅读 · 2020年8月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
NAACL 2019 | 一种考虑缓和KL消失的简单VAE训练方法
PaperWeekly
20+阅读 · 2019年4月24日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
9+阅读 · 4月25日
多智能体协作机制
专知会员服务
8+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关VIP内容
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
【AAAI2023】图序注意力网络
专知会员服务
46+阅读 · 2022年11月24日
【CVPR2022】MSDN: 零样本学习的互语义蒸馏网络
专知会员服务
21+阅读 · 2022年3月8日
【ICLR2022】GNN-LM基于全局信息的图神经网络语义理解模型
专知会员服务
38+阅读 · 2021年5月28日
专知会员服务
30+阅读 · 2021年2月26日
专知会员服务
24+阅读 · 2020年9月15日
KDD20 | AM-GCN:自适应多通道图卷积网络
专知会员服务
40+阅读 · 2020年8月26日
相关论文
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
501+阅读 · 2023年3月31日
Heterogeneous Deep Graph Infomax
Arxiv
12+阅读 · 2019年11月19日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员