Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure - 专知论文

会员服务 ·

0

微服务 · 中央处理器 (CPU) · 运营 · 峰值 · SLA ·

Uber's Failover Architecture: Reconciling Reliability and Efficiency in Hyperscale Microservice Infrastructure

翻译：Uber故障切换架构：在超大规模微服务基础设施中实现可靠性与效率的统一

Mayank Bansal,Milind Chabbi,Kenneth Bogh,Srikanth Prodduturi,Kevin Xu,Amit Kumar,David Bell,Ranjib Dey,Yufei Ren,Sachin Sharma,Juan Marcano,Shriniket Kale,Subhav Pradhan,Ivan Beschastnikh,Miguel Covarrubias,Chien-Chih Liao,Sandeep Koushik Sheshadri,Wen Luo,Kai Song,Ashish Samant,Sahil Rihan,Nimish Sheth,Uday Kiran Medisetty

Operating a global, real-time platform at Uber's scale requires infrastructure that is both resilient and cost-efficient. Historically, reliability was ensured through a costly 2x capacity model--each service provisioned to handle global traffic independently across two regions--leaving half the fleet idle. We present Uber's Failover Architecture (UFA), which replaces the uniform 2x model with a differentiated architecture aligned to business criticality. Critical services retain failover guarantees, while non-critical services opportunistically use failover buffer capacity reserved for critical services during steady state. During rare "full-peak" failovers, non-critical services are selectively preempted and rapidly restored, with differentiated Service-Level Agreements (SLAs) using on-demand capacity. Automated safeguards, including dependency analysis and regression gates, ensure critical services continue to function even while non-critical services are unavailable. The quantitative impact is significant: UFA reduces steady-state provisioning from 2x to 1.3x, raising utilization from ~20% to ~30% while sustaining 99.97% availability. To date, UFA has hardened over 4,000 unsafe dependencies, eliminated over one million CPU cores from a baseline of about four million cores.

翻译：在Uber的规模上运营全球实时平台，需要兼具弹性与成本效益的基础设施。历史上，可靠性是通过昂贵的2倍容量模型来保证的——每个服务在两个区域独立配置以处理全球流量——这导致一半的机群处于闲置状态。我们提出了Uber故障切换架构（UFA），它用与业务关键性相匹配的差异化架构取代了统一的2倍模型。关键服务保留故障切换保证，而非关键服务在稳态期间则有机会使用为关键服务预留的故障切换缓冲容量。在罕见的"全峰值"故障切换期间，非关键服务会被选择性地抢占并利用按需容量通过差异化的服务级别协议（SLA）快速恢复。包括依赖关系分析和回归门在内的自动化保障机制，确保即使非关键服务不可用，关键服务也能持续运行。其量化影响显著：UFA将稳态资源配置从2倍减少到1.3倍，利用率从约20%提升至约30%，同时维持了99.97%的可用性。迄今为止，UFA已加固了超过4000个不安全的依赖关系，并从约四百万个CPU核心的基线中消除了超过一百万个CPU核心。

0

相关内容

微服务

《不确定性下基础设施维修与更换决策的深度强化学习方法》2026最新89页

《不确定性下基础设施维修与更换决策的深度强化学习方法》2026最新89页

专知会员服务

11+阅读 · 5月18日

Agent+Copilot：大模型在智能运维领域的应用

Agent+Copilot：大模型在智能运维领域的应用

专知会员服务

60+阅读 · 2024年8月11日

《图神经网络智能交通系统》最新综述

《图神经网络智能交通系统》最新综述

专知会员服务

41+阅读 · 2024年1月3日

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

专知会员服务

40+阅读 · 2023年1月30日

UC San Diego Yang Zheng《将自主融入交通系统: 可扩展控制与优化》附 51页讲解PPT，及2篇paper

UC San Diego Yang Zheng《将自主融入交通系统: 可扩展控制与优化》附 51页讲解PPT，及2篇paper

专知会员服务

18+阅读 · 2022年3月30日

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

专知会员服务

17+阅读 · 2022年2月16日

最新「智能车联网」综述论文，170篇文献全面概述智能车联网（VANETs）技术

专知会员服务

26+阅读 · 2021年8月9日

【博士论文】基于轨迹分析的微服务故障定位

专知会员服务

31+阅读 · 2020年12月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

专知会员服务

64+阅读 · 2019年8月10日

滴滴司机调度系统实践

滴滴司机调度系统实践

DataFunTalk

19+阅读 · 2020年8月9日

滴滴离线索引快速构建FastIndex架构实践

滴滴离线索引快速构建FastIndex架构实践

InfoQ

21+阅读 · 2020年3月19日

城市公共交通智能化应用系统（公交都市）

城市公共交通智能化应用系统（公交都市）

智能交通技术

10+阅读 · 2019年8月14日

交通评价指标概略

交通评价指标概略

智能交通技术

15+阅读 · 2019年7月21日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

车路协同构建“通信+计算”新体系

车路协同构建“通信+计算”新体系

智能交通技术

11+阅读 · 2019年3月26日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

MAAS：出行服务的颠覆者

MAAS：出行服务的颠覆者

智能交通技术

16+阅读 · 2018年12月27日

智慧公路建设方案

智慧公路建设方案

智能交通技术

30+阅读 · 2018年2月28日

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

分布式全线控电动汽车可重构集成控制策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

异构车联网协作数据传输关键技术的建模分析及优化算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

切换系统的容错保成本和容错H无穷控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于可再生能源的互联网节能路由研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

基于交通行为的道路网络脆弱性识别及改善策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

A Markovian Traffic Equilibrium Model for Ride-Hailing

Arxiv

0+阅读 · 4月23日

RouterWise: Joint Resource Allocation and Routing for Latency-Aware Multi-Model LLM Serving

Arxiv

0+阅读 · 4月13日

Robust Multi-Objective Optimization for Bicycle Rebalancing in Shared Mobility Systems

Arxiv

0+阅读 · 4月9日

Adaptive Multi-Dimensional Coordinated Comprehensive Routing Scheme for IoV

Arxiv

0+阅读 · 3月30日

Missing-Aware Multimodal Fusion for Unified Microservice Incident Management

Arxiv

0+阅读 · 3月26日

Quantum Inspired Vehicular Network Optimization for Intelligent Decision Making in Smart Cities

Arxiv

0+阅读 · 3月26日

Measurement-Driven Early Warning of Reliability Breakdown in 5G NSA Railway Networks

Arxiv

0+阅读 · 3月24日

An Optimization-Based User Scheduling Framework for Multiuser MIMO Systems

Arxiv

0+阅读 · 3月3日

Shatter Throughput Ceilings: Leveraging Reflection Surfaces to Enhance Transmissions for Vehicular Fast Data Exchange

Arxiv

0+阅读 · 3月3日

A traffic incident management framework for vehicular ad hoc networks

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

中央处理器 (CPU)

最新内容

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

7+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

4+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

4+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

4+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

7+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

7+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

4+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

2+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

5+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

3+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

4+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

12+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

14+阅读 · 7月16日

相关VIP内容

《不确定性下基础设施维修与更换决策的深度强化学习方法》2026最新89页

《不确定性下基础设施维修与更换决策的深度强化学习方法》2026最新89页

专知会员服务

11+阅读 · 5月18日

Agent+Copilot：大模型在智能运维领域的应用

Agent+Copilot：大模型在智能运维领域的应用

专知会员服务

60+阅读 · 2024年8月11日

《图神经网络智能交通系统》最新综述

《图神经网络智能交通系统》最新综述

专知会员服务

41+阅读 · 2024年1月3日

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

边缘智能如何用于车联网？车联网边缘智能：概念、架构、问题、实施和展望

专知会员服务

40+阅读 · 2023年1月30日

UC San Diego Yang Zheng《将自主融入交通系统: 可扩展控制与优化》附 51页讲解PPT，及2篇paper

UC San Diego Yang Zheng《将自主融入交通系统: 可扩展控制与优化》附 51页讲解PPT，及2篇paper

专知会员服务

18+阅读 · 2022年3月30日

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

维多利亚运输政策研究所“Autonomous Vehicle Implementation Predictions：Implications for Transport Planning”（自动驾驶汽车实施预测:对交通规划的影响）

专知会员服务

17+阅读 · 2022年2月16日

最新「智能车联网」综述论文，170篇文献全面概述智能车联网（VANETs）技术

专知会员服务

26+阅读 · 2021年8月9日

【博士论文】基于轨迹分析的微服务故障定位

专知会员服务

31+阅读 · 2020年12月21日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

50+阅读 · 2019年10月17日

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

【IJCAI 2019】人工智能在交通中的应用（Artificial Intelligence in Transportation），滴滴AI实验室研究员王征博士，秦志伟博士

专知会员服务

64+阅读 · 2019年8月10日

热门VIP内容

开通专知VIP会员享更多权益服务

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

相关资讯

滴滴司机调度系统实践

滴滴司机调度系统实践

DataFunTalk

19+阅读 · 2020年8月9日

滴滴离线索引快速构建FastIndex架构实践

滴滴离线索引快速构建FastIndex架构实践

InfoQ

21+阅读 · 2020年3月19日

城市公共交通智能化应用系统（公交都市）

城市公共交通智能化应用系统（公交都市）

智能交通技术

10+阅读 · 2019年8月14日

交通评价指标概略

交通评价指标概略

智能交通技术

15+阅读 · 2019年7月21日

基于MaaS的智慧交通体系

基于MaaS的智慧交通体系

智能交通技术

11+阅读 · 2019年6月13日

出行即服务（MAAS）框架

出行即服务（MAAS）框架

智能交通技术

53+阅读 · 2019年5月22日

车路协同构建“通信+计算”新体系

车路协同构建“通信+计算”新体系

智能交通技术

11+阅读 · 2019年3月26日

基于车路协同的群体智能协同

基于车路协同的群体智能协同

智能交通技术

10+阅读 · 2019年1月23日

MAAS：出行服务的颠覆者

MAAS：出行服务的颠覆者

智能交通技术

16+阅读 · 2018年12月27日

智慧公路建设方案

智慧公路建设方案

智能交通技术

30+阅读 · 2018年2月28日

相关论文

A Markovian Traffic Equilibrium Model for Ride-Hailing

Arxiv

0+阅读 · 4月23日

RouterWise: Joint Resource Allocation and Routing for Latency-Aware Multi-Model LLM Serving

Arxiv

0+阅读 · 4月13日

Robust Multi-Objective Optimization for Bicycle Rebalancing in Shared Mobility Systems

Arxiv

0+阅读 · 4月9日

Adaptive Multi-Dimensional Coordinated Comprehensive Routing Scheme for IoV

Arxiv

0+阅读 · 3月30日

Missing-Aware Multimodal Fusion for Unified Microservice Incident Management

Arxiv

0+阅读 · 3月26日

Quantum Inspired Vehicular Network Optimization for Intelligent Decision Making in Smart Cities

Arxiv

0+阅读 · 3月26日

Measurement-Driven Early Warning of Reliability Breakdown in 5G NSA Railway Networks

Arxiv

0+阅读 · 3月24日

An Optimization-Based User Scheduling Framework for Multiuser MIMO Systems

Arxiv

0+阅读 · 3月3日

Shatter Throughput Ceilings: Leveraging Reflection Surfaces to Enhance Transmissions for Vehicular Fast Data Exchange

Arxiv

0+阅读 · 3月3日

A traffic incident management framework for vehicular ad hoc networks

Arxiv

0+阅读 · 2月20日

相关基金

面向车联网海量高速移动终端的高效信道信息获取机制

国家自然科学基金

0+阅读 · 2017年12月31日

面向车联网的交通网络涌现行为建模

国家自然科学基金

8+阅读 · 2015年12月31日

分布式全线控电动汽车可重构集成控制策略研究

国家自然科学基金

1+阅读 · 2015年12月31日

异构车联网协作数据传输关键技术的建模分析及优化算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

互连网络条件路覆盖与综合诊断策略下的故障诊断性研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向5G的大规模MIMO可靠传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

切换系统的容错保成本和容错H无穷控制

国家自然科学基金

0+阅读 · 2015年12月31日

基于可再生能源的互联网节能路由研究

国家自然科学基金

0+阅读 · 2015年12月31日

利用复杂网络理論优化车载通信网络

国家自然科学基金

1+阅读 · 2014年12月31日

基于交通行为的道路网络脆弱性识别及改善策略研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员