Varuna: Enabling Failure-Type Aware RDMA Failover - 专知论文

会员服务 ·

0

RDMA · 链路 · 操作 · 性能下降 · 路径 ·

Varuna: Enabling Failure-Type Aware RDMA Failover

翻译：瓦鲁那：实现故障类型感知的RDMA故障转移

Xiaoyang Wang,Yongkun Li,Lulu Yao,Guoli Wei,Longcheng Yang,Yinlong Xu,Weiqing Kong,Weiguang Wang,Peng Dong,Bingyang Liu

RDMA link failures can render connections temporarily unavailable, causing both performance degradation and significant recovery overhead. To tolerate such failures, production datacenters assign each primary link with a standby link and, upon failure, uniformly retransmit all in-flight RDMA request over the backup path. However, we observe that such blanket retransmission is unnecessary. In-flight requests can be split into pre-failure and post-failure categories depending on whether the responder has already executed. Retransmitting post-failure requests is not only redundant (consuming bandwidth), but also incorrect for non-idempotent operations, where duplicate execution can violate application semantics. We present Varuna, a failure-type-aware RDMA recovery mechanism that enables correct retransmission and us-level failover. Varuna piggybacks a lightweight completion log on every RDMA operation; after a link failure, this log deterministically reveals which in-flight requests were executed (post-failure) and which were lost (pre-failure). Varuna then retransmits only the pre-failure subset and fetches/recovers the return values for post-failure requests. Evaluated using synthetic microbenchmarks and end-to-end RDMA TPC-C transactions, Varuna incurs only 0.6-10% steady-state latency overhead in realistic applications, eliminates 65% of recovery retransmission time, preserves transactional consistency, and introduces zero connectivity rebuild overhead and negligible memory overhead during RDMA failover.

翻译：RDMA链路故障可能导致连接暂时不可用，造成性能下降和显著的恢复开销。为了容忍此类故障，生产数据中心为每条主链路分配备用链路，并在故障发生时对所有在途RDMA请求统一通过备份路径进行重传。然而，我们发现这种统一重传是不必要的。在途请求可根据响应方是否已执行划分为故障前和故障后两类。重传故障后请求不仅冗余（消耗带宽），而且对于非幂等操作而言是错误的，因为重复执行可能违反应用语义。我们提出Varuna，一种故障类型感知的RDMA恢复机制，能够实现正确的重传和微秒级故障转移。Varuna在每个RDMA操作上附加轻量级的完成日志；链路故障后，该日志能确定性地揭示哪些在途请求已被执行（故障后）以及哪些已丢失（故障前）。Varuna随后仅重传故障前子集，并获取/恢复故障后请求的返回值。通过合成微基准测试和端到端RDMA TPC-C事务评估，Varuna在实际应用中仅引入0.6-10%的稳态延迟开销，消除了65%的恢复重传时间，保持了事务一致性，并在RDMA故障转移过程中实现了零连接重建开销和可忽略的内存开销。

0

相关内容

RDMA

《基于深度强化学习的军用飞机失控状态改出控制设计》

《基于深度强化学习的军用飞机失控状态改出控制设计》

专知会员服务

17+阅读 · 2月10日

《大型语言模型在军事战术网络故障诊断中的应用》

《大型语言模型在军事战术网络故障诊断中的应用》

专知会员服务

25+阅读 · 2025年11月11日

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

专知会员服务

14+阅读 · 2025年11月8日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

卡尔曼滤波在装备故障预测中的应用综述

卡尔曼滤波在装备故障预测中的应用综述

专知会员服务

12+阅读 · 2024年9月27日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

专知会员服务

35+阅读 · 2024年6月15日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

【ICLR 2022 论文解读】MIT专家使用人工智能发现隐藏在海量数据集中的异常（电网故障或级联交通瓶颈）

【ICLR 2022 论文解读】MIT专家使用人工智能发现隐藏在海量数据集中的异常（电网故障或级联交通瓶颈）

专知会员服务

44+阅读 · 2022年3月10日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

推荐系统召回四模型之二：沉重的FFM模型

推荐系统召回四模型之二：沉重的FFM模型

AINLP

23+阅读 · 2019年3月22日

【工业智能】风机齿轮箱故障诊断 — 基于振动信号

【工业智能】风机齿轮箱故障诊断 — 基于振动信号

产业智能官

30+阅读 · 2018年9月5日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

专知

15+阅读 · 2017年9月26日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

航空发动机分布式控制系统传感器故障在线检测与解析重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

风电机组关键部件故障机理与状态评估方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Securing High-Performance Data Transfers: Implementing AES Encryption in RDMA Systems

Arxiv

0+阅读 · 5月24日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 5月1日

Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes

Arxiv

0+阅读 · 4月30日

Reproducible Automated Program Repair Is Hard -- Experiences With the Defects4J Dataset

Arxiv

0+阅读 · 4月29日

FlashSpread: IO-Aware GPU Simulation of Non-Markovian Epidemic Dynamics via Kernel Fusion

Arxiv

0+阅读 · 4月23日

Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference

Arxiv

0+阅读 · 4月14日

Generative Modeling under Non-Monotonic MAR Missingness via Approximate Wasserstein Gradient Flows

Arxiv

0+阅读 · 4月6日

SAGAI-MID: A Generative AI-Driven Middleware for Dynamic Runtime Interoperability

Arxiv

0+阅读 · 3月30日

FACTUM: Mechanistic Detection of Citation Hallucination in Long-Form RAG

Arxiv

0+阅读 · 3月29日

A Practical Framework for Flaky Failure Triage in Distributed Database Continuous Integration

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

2+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

《基于深度强化学习的军用飞机失控状态改出控制设计》

《基于深度强化学习的军用飞机失控状态改出控制设计》

专知会员服务

17+阅读 · 2月10日

《大型语言模型在军事战术网络故障诊断中的应用》

《大型语言模型在军事战术网络故障诊断中的应用》

专知会员服务

25+阅读 · 2025年11月11日

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

【AAAI2026】模型不确定性下的在线鲁棒规划：一种基于采样的方法

专知会员服务

14+阅读 · 2025年11月8日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

卡尔曼滤波在装备故障预测中的应用综述

卡尔曼滤波在装备故障预测中的应用综述

专知会员服务

12+阅读 · 2024年9月27日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

44+阅读 · 2024年6月23日

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

加强军事决策过程（MDMP）：审视快速决策与同步（RDSP）、过程自动化和人工智能集成

专知会员服务

35+阅读 · 2024年6月15日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

【ICLR 2022 论文解读】MIT专家使用人工智能发现隐藏在海量数据集中的异常（电网故障或级联交通瓶颈）

【ICLR 2022 论文解读】MIT专家使用人工智能发现隐藏在海量数据集中的异常（电网故障或级联交通瓶颈）

专知会员服务

44+阅读 · 2022年3月10日

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

实时强化学习《Real-Time Reinforcement Learning》S Ramstedt, C Pal [Mila, Element AI] (2019)

专知会员服务

13+阅读 · 2019年11月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

【泡泡图灵智库】NM-Net：基于邻接点一致性的鲁邦特征点匹配（CVPR）

泡泡机器人SLAM

36+阅读 · 2019年4月28日

推荐系统召回四模型之二：沉重的FFM模型

推荐系统召回四模型之二：沉重的FFM模型

AINLP

23+阅读 · 2019年3月22日

【工业智能】风机齿轮箱故障诊断 — 基于振动信号

【工业智能】风机齿轮箱故障诊断 — 基于振动信号

产业智能官

30+阅读 · 2018年9月5日

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

【智能制造】设备故障诊断基础知识：振动、噪声、温度、探伤

产业智能官

13+阅读 · 2017年12月24日

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

【深度】专知主题链路知识推荐#8-机器学习中的变分推断方法(Variational Inference)简介01

专知

15+阅读 · 2017年9月26日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

Securing High-Performance Data Transfers: Implementing AES Encryption in RDMA Systems

Arxiv

0+阅读 · 5月24日

AIReSim: A Discrete Event Simulator for Large-scale AI Cluster Reliability Modeling

Arxiv

0+阅读 · 5月1日

Crab: A Semantics-Aware Checkpoint/Restore Runtime for Agent Sandboxes

Arxiv

0+阅读 · 4月30日

Reproducible Automated Program Repair Is Hard -- Experiences With the Defects4J Dataset

Arxiv

0+阅读 · 4月29日

FlashSpread: IO-Aware GPU Simulation of Non-Markovian Epidemic Dynamics via Kernel Fusion

Arxiv

0+阅读 · 4月23日

Token-Budget-Aware Pool Routing for Cost-Efficient LLM Inference

Arxiv

0+阅读 · 4月14日

Generative Modeling under Non-Monotonic MAR Missingness via Approximate Wasserstein Gradient Flows

Arxiv

0+阅读 · 4月6日

SAGAI-MID: A Generative AI-Driven Middleware for Dynamic Runtime Interoperability

Arxiv

0+阅读 · 3月30日

FACTUM: Mechanistic Detection of Citation Hallucination in Long-Form RAG

Arxiv

0+阅读 · 3月29日

A Practical Framework for Flaky Failure Triage in Distributed Database Continuous Integration

Arxiv

0+阅读 · 3月24日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

传感器故障下的数据驱动容错控制技术及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

变工况机械动态信号瞬时耦合的理解、识别与故障预示

国家自然科学基金

2+阅读 · 2015年12月31日

航空发动机分布式控制系统传感器故障在线检测与解析重构算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

风电机组关键部件故障机理与状态评估方法

国家自然科学基金

1+阅读 · 2014年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员