RDMA link failures can render connections temporarily unavailable, causing both performance degradation and significant recovery overhead. To tolerate such failures, production datacenters assign each primary link with a standby link and, upon failure, uniformly retransmit all in-flight RDMA request over the backup path. However, we observe that such blanket retransmission is unnecessary. In-flight requests can be split into pre-failure and post-failure categories depending on whether the responder has already executed. Retransmitting post-failure requests is not only redundant (consuming bandwidth), but also incorrect for non-idempotent operations, where duplicate execution can violate application semantics. We present Varuna, a failure-type-aware RDMA recovery mechanism that enables correct retransmission and us-level failover. Varuna piggybacks a lightweight completion log on every RDMA operation; after a link failure, this log deterministically reveals which in-flight requests were executed (post-failure) and which were lost (pre-failure). Varuna then retransmits only the pre-failure subset and fetches/recovers the return values for post-failure requests. Evaluated using synthetic microbenchmarks and end-to-end RDMA TPC-C transactions, Varuna incurs only 0.6-10% steady-state latency overhead in realistic applications, eliminates 65% of recovery retransmission time, preserves transactional consistency, and introduces zero connectivity rebuild overhead and negligible memory overhead during RDMA failover.


翻译:RDMA链路故障可能导致连接暂时不可用,造成性能下降和显著的恢复开销。为了容忍此类故障,生产数据中心为每条主链路分配备用链路,并在故障发生时对所有在途RDMA请求统一通过备份路径进行重传。然而,我们发现这种统一重传是不必要的。在途请求可根据响应方是否已执行划分为故障前和故障后两类。重传故障后请求不仅冗余(消耗带宽),而且对于非幂等操作而言是错误的,因为重复执行可能违反应用语义。我们提出Varuna,一种故障类型感知的RDMA恢复机制,能够实现正确的重传和微秒级故障转移。Varuna在每个RDMA操作上附加轻量级的完成日志;链路故障后,该日志能确定性地揭示哪些在途请求已被执行(故障后)以及哪些已丢失(故障前)。Varuna随后仅重传故障前子集,并获取/恢复故障后请求的返回值。通过合成微基准测试和端到端RDMA TPC-C事务评估,Varuna在实际应用中仅引入0.6-10%的稳态延迟开销,消除了65%的恢复重传时间,保持了事务一致性,并在RDMA故障转移过程中实现了零连接重建开销和可忽略的内存开销。

0
下载
关闭预览

相关内容

《大型语言模型在军事战术网络故障诊断中的应用》
专知会员服务
23+阅读 · 2025年11月11日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
卡尔曼滤波在装备故障预测中的应用综述
专知会员服务
12+阅读 · 2024年9月27日
大型语言模型时代AIOps在故障管理中的综述
专知会员服务
43+阅读 · 2024年6月23日
【数字孪生】使用数字孪生体进行预测性维护
产业智能官
28+阅读 · 2019年7月22日
基于MaaS的智慧交通体系
智能交通技术
11+阅读 · 2019年6月13日
推荐系统召回四模型之二:沉重的FFM模型
AINLP
23+阅读 · 2019年3月22日
【工业智能】风机齿轮箱故障诊断 — 基于振动信号
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月23日
VIP会员
最新内容
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
0+阅读 · 今天16:48
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
3+阅读 · 今天14:04
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
7+阅读 · 今天13:49
基于声学的无人机检测技术综述
专知会员服务
5+阅读 · 今天13:37
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
5+阅读 · 今天13:11
战略前沿人工智能的再思考(中文)
专知会员服务
7+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
5+阅读 · 5月29日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员