The past decade has witnessed a rapid expansion of global cloud wide-area networks (WANs) with the deployment of new network sites and datacenters, making it challenging for commercial optimization engines to solve the network traffic engineering (TE) problem quickly at scale. Current approaches to accelerating TE optimization decompose the task into subproblems that can be solved in parallel using optimization solvers, but they are fundamentally restricted to a few dozen subproblems in order to balance run time and TE performance, achieving limited parallelism and speedup. Motivated by the ability to readily access thousands of threads on GPUs through modern deep learning frameworks, we propose a learning-based TE algorithm -- Teal, which harnesses the parallel processing power of GPUs to accelerate TE control. First, Teal designs a flow-centric graph neural network (GNN) to capture WAN connectivity and model network flows, learning flow features as inputs to the downstream allocation. Second, to reduce the problem scale and make learning tractable, Teal employs a multi-agent reinforcement learning (RL) algorithm to allocate each traffic demand independently toward optimizing a central TE objective. Finally, Teal fine-tunes the resulting flow allocations using alternating direction method of multipliers (ADMM), a highly parallelizable constrained optimization algorithm for reducing constraint violations (e.g., overused links). We evaluate Teal on traffic matrices collected from a global cloud provider, and show that on a large WAN topology with over 1,700 nodes, Teal generates near-optimal flow allocations while being several orders of magnitude faster than the production optimization engine. Compared with other TE acceleration schemes, Teal satisfies up to 29% more traffic demands and yields up to 109x speedups.


翻译:过去十年间,随着新网络站点和数据中心的部署,全球云广域网经历了快速扩张,这使得商业优化引擎难以在大规模网络中快速求解流量工程问题。当前加速流量工程优化的方法将任务分解为可并行求解的子问题,但为了平衡运行时间和流量工程性能,这类方法本质上受限于数十个子问题的规模,导致并行度和加速效果有限。受现代深度学习框架能够在GPU上轻松访问数千线程的启发,我们提出了一种基于学习的流量工程算法——Teal,其利用GPU的并行处理能力加速流量工程控制。首先,Teal设计了一种以流为中心的图神经网络,用于捕获广域网连接性并对网络流建模,学习流特征作为下游分配任务的输入。其次,为降低问题规模并使学习可行,Teal采用多智能体强化学习算法,在优化中央流量工程目标的同时独立分配每个流量需求。最后,Teal利用交替方向乘子法(一种高度可并行的约束优化算法)微调生成的流分配,以减少约束违反(如链路过载)。我们使用全球云提供商收集的流量矩阵评估Teal,结果表明,在包含超过1700个节点的大型广域网拓扑上,Teal生成的流分配接近最优,且速度比生产级优化引擎快数个数量级。与其他流量工程加速方案相比,Teal多满足高达29%的流量需求,并实现了高达109倍的加速比。

0
下载
关闭预览

相关内容

不可错过!《机器学习100讲》课程,UBC Mark Schmidt讲授
专知会员服务
76+阅读 · 2022年6月28日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
机器学习入门的经验与建议
专知会员服务
94+阅读 · 2019年10月10日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
16+阅读 · 2022年11月1日
Arxiv
37+阅读 · 2021年8月2日
Adaptive Synthetic Characters for Military Training
Arxiv
50+阅读 · 2021年1月6日
On Feature Normalization and Data Augmentation
Arxiv
15+阅读 · 2020年2月25日
Arxiv
45+阅读 · 2019年12月20日
Adversarial Transfer Learning
Arxiv
12+阅读 · 2018年12月6日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
3+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
10+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
7+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
战略前沿人工智能的再思考(中文)
专知会员服务
8+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
6+阅读 · 5月29日
相关资讯
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
全球人工智能
20+阅读 · 2017年12月17日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
相关论文
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员