ReviveMoE: Fast Recovery for Hardware Failures in Large-Scale MoE LLM Inference Deployments - 专知论文

会员服务 ·

0

华为 · 大语言模型 · 注意力机制 · 系统 · 运营 ·

ReviveMoE: Fast Recovery for Hardware Failures in Large-Scale MoE LLM Inference Deployments

翻译：ReviveMoE：面向大规模MoE LLM推理部署中硬件故障的快速恢复方法

Haley Li,Xinglu Wang,Cong Feng,Chunxu Zuo,Yanan Wang,Hei Lo,Yufei Cui,Bingji Wang,Duo Cui,Shuming Jing,Yizhou Shan,Ying Xiong,Jiannan Wang,Yong Zhang,Zhenan Fan

from arxiv, 21 pages, 6 figures

As LLM deployments scale over more hardware, the probability of a single failure in a system increases significantly, and cloud operators must consider robust countermeasures to handle these inevitable failures. A common recovery approach is to simply restart the LLM serving instance; however, this is costly in model-as-a-service (MaaS) inference settings, where reloading model weights and recompiling computation graphs can introduce significant delays to incoming requests. We propose ReviveMoE, a method for rapid failure recovery in large-scale LLM deployments without restarting the serving instance. ReviveMoE is designed to support both the traditional LLM architecture, which collocates MoE and attention on the same hardware, and the disaggregated architectures, which separate MoE from attention. Integrated into Huawei Cloud's MaaS, ReviveMoE is built on top of Huawei's xDeepServe serving platform and the XCCL communications library.

翻译：随着LLM部署在更多硬件上扩展，系统中发生单点故障的概率显著增加，云运营商必须考虑采用稳健的应对措施来处理这些不可避免的故障。一种常见的恢复方法是简单地重启LLM服务实例；然而，这在模型即服务（MaaS）推理场景中成本高昂，因为重新加载模型权重和重新编译计算图会给传入请求带来显著的延迟。我们提出了ReviveMoE，一种无需重启服务实例即可实现大规模LLM部署快速故障恢复的方法。ReviveMoE旨在支持两种架构：传统的LLM架构（将MoE与注意力机制部署在同一硬件上）以及解耦架构（将MoE与注意力机制分离）。ReviveMoE已集成到华为云的MaaS中，构建于华为的xDeepServe服务平台和XCCL通信库之上。

0

相关内容

信息与通信解决方案供应商

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

43+阅读 · 2024年6月23日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

LLMCad:快速可扩展的设备上大型语言模型推理

LLMCad:快速可扩展的设备上大型语言模型推理

专知会员服务

35+阅读 · 2023年9月11日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

推荐系统召回四模型之二：沉重的FFM模型

推荐系统召回四模型之二：沉重的FFM模型

AINLP

23+阅读 · 2019年3月22日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于陀螺振动探测和编码曝光的遥感图像快速恢复方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

通信信号相关探测法实现WDM-PON网络中多信道光纤故障点的同时诊断

国家自然科学基金

0+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Arxiv

0+阅读 · 3月10日

Beyond Microservices: Testing Web-Scale RCA Methods on GPU-Driven LLM Workloads

Arxiv

0+阅读 · 3月2日

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Arxiv

0+阅读 · 2月26日

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月23日

ReIn: Conversational Error Recovery with Reasoning Inception

Arxiv

0+阅读 · 2月19日

ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization

Arxiv

0+阅读 · 2月17日

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

Arxiv

0+阅读 · 2月13日

SVRepair: Structured Visual Reasoning for Automated Program Repair

Arxiv

0+阅读 · 2月5日

SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring

Arxiv

0+阅读 · 2月3日

When Routing Collapses: On the Degenerate Convergence of LLM Routers

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

大语言模型

注意力机制

最新内容

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

专知会员服务

1+阅读 · 今天14:31

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

0+阅读 · 今天14:29

面向具身智能与机器人仿真的三维生成：综述

面向具身智能与机器人仿真的三维生成：综述

专知会员服务

0+阅读 · 今天14:22

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

专知会员服务

11+阅读 · 今天6:39

《人工智能在全球军事与武器工业中的应用、方法论与影响》

《人工智能在全球军事与武器工业中的应用、方法论与影响》

专知会员服务

4+阅读 · 今天6:36

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

《“史诗怒火”行动中美军平台的战略协同：基于开源数据的网络分析》200页报告

专知会员服务

8+阅读 · 今天6:28

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

6+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

5+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

7+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

6+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

6+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

11+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

12+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

8+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

21+阅读 · 4月29日

相关VIP内容

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

大型语言模型时代AIOps在故障管理中的综述

大型语言模型时代AIOps在故障管理中的综述

专知会员服务

43+阅读 · 2024年6月23日

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

大模型如何应对安全性？清华等最新《大型语言模型系统的风险分类、缓解措施及评估基准》论文

专知会员服务

49+阅读 · 2024年1月17日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

大模型如何处理事实？西湖大学等最新《大型语言模型中的事实性研究》综述，详述: LLM的知识、检索与领域特异性

专知会员服务

47+阅读 · 2023年10月12日

LLMCad:快速可扩展的设备上大型语言模型推理

LLMCad:快速可扩展的设备上大型语言模型推理

专知会员服务

35+阅读 · 2023年9月11日

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

大模型如何重塑推荐？香港理工大学等《大型语言模型（LLMs）时代的推荐系统》综述论文，全面阐述LLM+RS技术体系

专知会员服务

74+阅读 · 2023年9月3日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

《未来打击作战中有人-无人协同的扩展杀伤链分析》130页

ACL 2026 综述：从事后解释到内生解释，大模型内生可解释性的前沿进展

面向具身智能与机器人仿真的三维生成：综述

相关资讯

【PHM算法】PHM算法 | 故障诊断建模方法

【PHM算法】PHM算法 | 故障诊断建模方法

产业智能官

68+阅读 · 2020年3月16日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

【数字孪生】使用数字孪生体进行预测性维护

【数字孪生】使用数字孪生体进行预测性维护

产业智能官

28+阅读 · 2019年7月22日

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

【预测性维护】从观望到涉足，如何开发一个预测性维护系统？

产业智能官

20+阅读 · 2019年5月18日

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

【预测性维护】预测性维护是边缘计算与人工智能，在工业落地的最短路径？

产业智能官

14+阅读 · 2019年5月5日

推荐系统召回四模型之二：沉重的FFM模型

推荐系统召回四模型之二：沉重的FFM模型

AINLP

23+阅读 · 2019年3月22日

Deep Image Prior——图像恢复入门

Deep Image Prior——图像恢复入门

中国人工智能学会

15+阅读 · 2019年2月16日

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

无人机图像处理技术精髓汇总 (一) 三维还原重建技术简介

深度学习

13+阅读 · 2018年12月18日

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

放弃 RNN/LSTM 吧，因为真的不好用！望周知~

人工智能头条

19+阅读 · 2018年4月24日

【机器学习】【案例分析】基于机器学习的磁盘故障预测

【机器学习】【案例分析】基于机器学习的磁盘故障预测

产业智能官

12+阅读 · 2017年8月13日

相关论文

FlexServe: A Fast and Secure LLM Serving System for Mobile Devices with Flexible Resource Isolation

Arxiv

0+阅读 · 3月10日

Beyond Microservices: Testing Web-Scale RCA Methods on GPU-Driven LLM Workloads

Arxiv

0+阅读 · 3月2日

LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure

Arxiv

0+阅读 · 2月26日

MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems

Arxiv

0+阅读 · 2月23日

ReIn: Conversational Error Recovery with Reasoning Inception

Arxiv

0+阅读 · 2月19日

ReLoop: Structured Modeling and Behavioral Verification for Reliable LLM-Based Optimization

Arxiv

0+阅读 · 2月17日

Outrunning LLM Cutoffs: A Live Kernel Crash Resolution Benchmark for All

Arxiv

0+阅读 · 2月13日

SVRepair: Structured Visual Reasoning for Automated Program Repair

Arxiv

0+阅读 · 2月5日

SWE-Refactor: A Repository-Level Benchmark for Real-World LLM-Based Code Refactoring

Arxiv

0+阅读 · 2月3日

When Routing Collapses: On the Degenerate Convergence of LLM Routers

Arxiv

0+阅读 · 2月3日

相关基金

重复数据删除存储系统的可靠性关键技术研究

国家自然科学基金

1+阅读 · 2017年12月31日

数据驱动关键性能指标相关的故障诊断方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向Bug报告的软件故障重现方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

大规模MIMO检测的理论性能分析和算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

富信息环境下复杂可修系统动态维修决策研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于陀螺振动探测和编码曝光的遥感图像快速恢复方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

通信信号相关探测法实现WDM-PON网络中多信道光纤故障点的同时诊断

国家自然科学基金

0+阅读 · 2014年12月31日

融合机载与车载点云的建筑物群快速三维重建方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员