Modern data center applications increasingly require microsecond-scale service time with strict tail latency requirements, which can hardly be realized with existing in-network task schedulers due to their inherent limitations. Specifically, software-based schedulers struggle to balance throughput and latency, while switch-based designs either lack global coordination, rely on packet recirculation heavily, or only offer limited support for large tasks. In light of these restrictions of the state-of-the-arts (SOTAs), we, in this work, propose Rain, an RDMA-assisted in-network scheduler built atop programmable switches that maintains centralized queues while bounding worker-local queues. Rain introduces a bidirectional on-switch queuing mechanism to buffer and match tasks and worker-issued tokens directly in the switch, avoiding worker-side polling and approximating the optimal behavior of join-bounded-shortest-queue without global aggregation. A switch-driven RDMA engine pre-writes arbitrarily large tasks via one-sided WRITE multicasts, keeping only compact metadata on the switch. Slice-aware scheduling further localizes decisions to more homogeneous queues, reducing dispersion-induced head-of-line blocking. Moreover, our study reveals that real-world systems can diverge from theoretical predictions: shallower worker queues do not always improve tail latency. Leveraging this insight, Rain incorporates an adaptive scheduling strategy to optimize worker queue depths and worker-to-slice mappings at runtime. Evaluations with the real-world application RocksDB show that Rain achieves 1.75x higher throughput than the best-performing SOTA while satisfying the same tail latency requirement.


翻译:现代数据中心应用日益要求微秒级服务时间与严格的尾延迟约束,现有网内任务调度器因其固有局限性难以实现该目标。具体而言,基于软件的调度器难以平衡吞吐量与延迟,而基于交换机的设计要么缺乏全局协调能力,要么严重依赖数据包重循环,或仅对大型任务提供有限支持。针对现有技术的上述限制,本文提出Rain——一种基于可编程交换机、借助RDMA的网内调度器,能在维持集中式队列的同时限制工作节点本地队列长度。Rain引入双向交换机内排队机制,直接在交换机中缓存任务并与工作节点发出的令牌进行匹配,避免工作节点侧轮询并逼近联合最短队列的理论最优行为,无需全局聚合。基于交换机驱动的RDMA引擎通过单边WRITE多播预写任意大型任务,仅在交换机中保留紧凑元数据。感知切片的调度进一步将决策定位至更均匀的队列,降低分散性引发的队头阻塞。此外,我们的研究表明真实系统可能偏离理论预测:较浅的工作节点队列并非总能改善尾延迟。基于这一洞见,Rain采用自适应调度策略,在运行时优化工作节点队列深度及工作节点到切片的映射。基于真实应用RocksDB的评估表明:在满足相同尾延迟约束条件下,Rain的吞吐量较性能最优的现有技术提升1.75倍。

0
下载
关闭预览

相关内容

国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
算力调度:算力时代的国家电网
专知会员服务
44+阅读 · 2023年11月7日
数字电网最新报告:数字赋能,电网添翼,33页ppt
专知会员服务
37+阅读 · 2022年12月15日
【博士论文】集群系统中的网络流调度
专知会员服务
47+阅读 · 2021年12月7日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
滴滴司机调度系统实践
DataFunTalk
19+阅读 · 2020年8月9日
【数据中台】什么是数据中台?
产业智能官
18+阅读 · 2019年7月30日
亿级订单数据的访问与储存,怎么实现与优化
ImportNew
11+阅读 · 2019年4月22日
亿级订单数据的访问与存储,怎么实现与优化?
码农翻身
16+阅读 · 2019年4月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员