REPS: Recycled Entropy Packet Spraying for Adaptive Load Balancing and Failure Mitigation - 专知论文

会员服务 ·

0

负载 · 均衡 · 负载均衡 · 自适应 · 路径 ·

REPS: Recycled Entropy Packet Spraying for Adaptive Load Balancing and Failure Mitigation

翻译：REPS：面向自适应负载均衡与故障缓解的再生熵包喷洒技术

Tommaso Bonato,Abdul Kabbani,Ahmad Ghalayini,Michael Papamichael,Mohammad Dohadwala,Lukas Gianinazzi,Mikhail Khalilov,Elias Achermann,Daniele De Sensi,Torsten Hoefler

Next-generation datacenters require highly efficient network load balancing to manage the growing scale of artificial intelligence (AI) training and general datacenter traffic. However, existing Ethernet-based solutions, such as Equal Cost Multi-Path (ECMP) and oblivious packet spraying (OPS), struggle to maintain high network utilization due to both increasing traffic demands and the expanding scale of datacenter topologies, which also exacerbate network failures. To address these limitations, we propose REPS, a lightweight decentralized per-packet adaptive load balancing algorithm designed to optimize network utilization while ensuring rapid recovery from link failures. REPS adapts to network conditions by caching good-performing paths. In case of a network failure, REPS re-routes traffic away from it in less than 100 microseconds. REPS is designed to be deployed with next-generation out-of-order transports, such as Ultra Ethernet, and uses less than 25 bytes of per-connection state regardless of the topology size. We extensively evaluate REPS in large-scale simulations and FPGA-based NICs.

翻译：下一代数据中心需要高效的网络负载均衡技术，以应对日益增长的人工智能（AI）训练流量和通用数据中心流量的规模扩展。然而，现有的基于以太网的解决方案，如等价多路径（ECMP）和无状态包喷洒（OPS），由于流量需求的持续增长和数据中心拓扑规模的不断扩大，难以维持较高的网络利用率，同时网络故障问题也进一步加剧。为应对这些挑战，本文提出REPS——一种轻量级、去中心化的逐包自适应负载均衡算法，旨在优化网络利用率并确保链路故障的快速恢复。REPS通过缓存性能良好的路径来适应网络状态变化；当发生网络故障时，REPS能在100微秒内将流量从故障路径移开。该算法设计用于与下一代乱序传输协议（如超以太网）协同部署，且无论拓扑规模如何，每个连接仅需少于25字节的状态存储。我们通过大规模仿真和基于FPGA的网卡对REPS进行了全面评估。

0

相关内容

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

最新论文《基于无人机基站的下一代物联网：群体智能方法的比较》西马其顿大学等高校6位 Senior Member, IEEE，Drone-Base-Station for Next-Generation Internet-of-Things: A Comparison of Swarm Intelligence Approaches

最新论文《基于无人机基站的下一代物联网：群体智能方法的比较》西马其顿大学等高校6位 Senior Member, IEEE，Drone-Base-Station for Next-Generation Internet-of-Things: A Comparison of Swarm Intelligence Approaches

专知会员服务

32+阅读 · 2022年4月7日

【博士论文】大规模数据中心带宽分配与流量调度技术研究

【博士论文】大规模数据中心带宽分配与流量调度技术研究

专知会员服务

33+阅读 · 2020年12月15日

【爱丁堡博士论文】深度神经移动网络，Deep Neural Mobile Networking

【爱丁堡博士论文】深度神经移动网络，Deep Neural Mobile Networking

专知会员服务

20+阅读 · 2020年11月12日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

专知会员服务

14+阅读 · 2019年11月8日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

【学界】完美代替传统卷积！Facebook等提出全新卷积操作OctConv，速度接近理论极限

【学界】完美代替传统卷积！Facebook等提出全新卷积操作OctConv，速度接近理论极限

GAN生成式对抗网络

14+阅读 · 2019年4月18日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

射频能量收集及其与太阳能收集一体化关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

可扩展交换网络的负载均衡技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂网络演化的多跳中继网络容量优化与节能机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Multi-Objective Load Balancing for Heterogeneous Edge-Based Object Detection Systems

Arxiv

0+阅读 · 3月16日

DeFRiS: Silo-Cooperative IoT Applications Scheduling via Decentralized Federated Reinforcement Learning

Arxiv

0+阅读 · 3月16日

A Constrained RL Approach for Cost-Efficient Delivery of Latency-Sensitive Applications

Arxiv

0+阅读 · 3月4日

Shatter Throughput Ceilings: Leveraging Reflection Surfaces to Enhance Transmissions for Vehicular Fast Data Exchange

Arxiv

0+阅读 · 3月3日

RIS-Enabled Wireless Channel Equalization: Adaptive RIS Equalizer and Deep Reinforcement Learning

Arxiv

0+阅读 · 3月3日

A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

Arxiv

0+阅读 · 2月23日

Parametric-Sensitivity Aware Retransmission for Efficient AI Downloading

Arxiv

0+阅读 · 2月14日

Arcalis: Accelerating Remote Procedure Calls Using a Lightweight Near-Cache Solution

Arxiv

0+阅读 · 2月13日

Load Balancing for AI Training Workloads

Arxiv

0+阅读 · 2月13日

EntroGD: Scalable Generalized Deduplication for Efficient Direct Analytics on Compressed IoT Data

Arxiv

0+阅读 · 2月10日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

扩散模型中的缓存方法综述：迈向高效的多模态生成

扩散模型中的缓存方法综述：迈向高效的多模态生成

专知会员服务

9+阅读 · 2025年10月23日

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

《数据驱动的自动驾驶》最新综述，详述大数据系统、数据挖掘和闭环技术

专知会员服务

35+阅读 · 2024年1月28日

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

希伯来大学最新《自然语言处理（NLP）领域的高效方法》综述论文，阐述资源受限如何提高模型效率

专知会员服务

34+阅读 · 2022年9月17日

最新论文《基于无人机基站的下一代物联网：群体智能方法的比较》西马其顿大学等高校6位 Senior Member, IEEE，Drone-Base-Station for Next-Generation Internet-of-Things: A Comparison of Swarm Intelligence Approaches

最新论文《基于无人机基站的下一代物联网：群体智能方法的比较》西马其顿大学等高校6位 Senior Member, IEEE，Drone-Base-Station for Next-Generation Internet-of-Things: A Comparison of Swarm Intelligence Approaches

专知会员服务

32+阅读 · 2022年4月7日

【博士论文】大规模数据中心带宽分配与流量调度技术研究

【博士论文】大规模数据中心带宽分配与流量调度技术研究

专知会员服务

33+阅读 · 2020年12月15日

【爱丁堡博士论文】深度神经移动网络，Deep Neural Mobile Networking

【爱丁堡博士论文】深度神经移动网络，Deep Neural Mobile Networking

专知会员服务

20+阅读 · 2020年11月12日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

【CCF优秀博士学位论文奖-2019提名】面向绿色跨域数据中心的能效管理研究，华中科技大学周知

专知会员服务

14+阅读 · 2019年11月8日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

《综述：多智能体系统（MAS）中的任务分配技术》美国空军项目支持

专知

55+阅读 · 2022年10月6日

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

《通过近似动态规划解决具有动态目标到达的多Agent路由问题》美国空军大学130页学位论文

专知

15+阅读 · 2022年7月22日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

【Flink】基于 Flink 的流式数据实时去重

【Flink】基于 Flink 的流式数据实时去重

AINLP

14+阅读 · 2020年9月29日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

人工智能训练师的再定义

人工智能训练师的再定义

竹间智能Emotibot

10+阅读 · 2019年5月15日

【学界】完美代替传统卷积！Facebook等提出全新卷积操作OctConv，速度接近理论极限

【学界】完美代替传统卷积！Facebook等提出全新卷积操作OctConv，速度接近理论极限

GAN生成式对抗网络

14+阅读 · 2019年4月18日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

相关论文

Multi-Objective Load Balancing for Heterogeneous Edge-Based Object Detection Systems

Arxiv

0+阅读 · 3月16日

DeFRiS: Silo-Cooperative IoT Applications Scheduling via Decentralized Federated Reinforcement Learning

Arxiv

0+阅读 · 3月16日

A Constrained RL Approach for Cost-Efficient Delivery of Latency-Sensitive Applications

Arxiv

0+阅读 · 3月4日

Shatter Throughput Ceilings: Leveraging Reflection Surfaces to Enhance Transmissions for Vehicular Fast Data Exchange

Arxiv

0+阅读 · 3月3日

RIS-Enabled Wireless Channel Equalization: Adaptive RIS Equalizer and Deep Reinforcement Learning

Arxiv

0+阅读 · 3月3日

A Replicate-and-Quantize Strategy for Plug-and-Play Load Balancing of Sparse Mixture-of-Experts LLMs

Arxiv

0+阅读 · 2月23日

Parametric-Sensitivity Aware Retransmission for Efficient AI Downloading

Arxiv

0+阅读 · 2月14日

Arcalis: Accelerating Remote Procedure Calls Using a Lightweight Near-Cache Solution

Arxiv

0+阅读 · 2月13日

Load Balancing for AI Training Workloads

Arxiv

0+阅读 · 2月13日

EntroGD: Scalable Generalized Deduplication for Efficient Direct Analytics on Compressed IoT Data

Arxiv

0+阅读 · 2月10日

相关基金

射频能量收集及其与太阳能收集一体化关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心网络中延时敏感的传输控制协议

国家自然科学基金

0+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

面向绿色数据中心的高效能分布式储能技术

国家自然科学基金

1+阅读 · 2015年12月31日

可扩展交换网络的负载均衡技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于聚类分析的高性能包分类技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂网络演化的多跳中继网络容量优化与节能机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员