Mobile applications in large-scale distributed systems are susceptible to backend service failures, yet traditional chaos engineering approaches cannot scale mobile testing due to the combinatorial explosion of flows, locations, and failure scenarios that need validation. We present an automated mobile chaos testing system that integrates DragonCrawl, an LLM-based mobile testing platform, with uHavoc, a service-level fault injection system. The key insight is that adaptive AI-driven test execution can navigate mobile applications under degraded backend conditions, eliminating the need to manually write test cases for each combination of user flow, city, and failure type. Since Q1 2024, our system has executed over 180,000 automated chaos tests across 47 critical flows in Uber's Rider, Driver, and Eats applications, representing approximately 39,000 hours of manual testing effort that would be impractical at this scale. We identified 23 resilience risks, with 70% being architectural dependency violations where non-critical service failures degraded core user flows. Twelve issues were severe enough to prevent trip requests or food orders. Two caused application crashes detectable only through mobile chaos testing, not backend testing alone. Automated root cause analysis reduced debugging time from hours to minutes, achieving 88% precision@5 in attributing mobile failures to specific backend services. This paper presents the system design, evaluates its performance under fault injection (maintaining 99% test reliability), and reports operational experience demonstrating that continuous mobile resilience validation is achievable at production scale.


翻译:大规模分布式系统中的移动应用易受后端服务故障影响,然而传统的混沌工程方法因需验证的流程、地理位置和故障场景的组合爆炸而无法扩展移动测试。我们提出了一种自动化移动混沌测试系统,该系统将基于大语言模型的移动测试平台DragonCrawl与服务级故障注入系统uHavoc相集成。其核心洞见在于:自适应的人工智能驱动测试执行能够在后端服务降级条件下导航移动应用,从而无需为每种用户流程、城市和故障类型的组合手动编写测试用例。自2024年第一季度以来,我们的系统已在Uber的乘客端、司机端和外卖应用的47个关键流程中执行了超过18万次自动化混沌测试,相当于约3.9万小时的人工测试工作量,在此规模下进行人工测试是不切实际的。我们识别出23个弹性风险,其中70%属于架构依赖违规——即非关键服务故障导致核心用户流程性能下降。其中12个问题严重到足以阻碍行程预订或食品订单。有两个问题引发了仅通过移动混沌测试(而非仅后端测试)才能检测到的应用崩溃。自动化根因分析将调试时间从数小时缩短至数分钟,在将移动端故障归因于特定后端服务方面实现了88%的精确率@5。本文介绍了系统设计,评估了其在故障注入下的性能(保持99%的测试可靠性),并报告了实际运营经验,证明在生产规模下实现持续的移动弹性验证是可行的。

0
下载
关闭预览

相关内容

《大语言模型驱动的智能红队测试》
专知会员服务
16+阅读 · 2025年11月26日
【新书】使用生成式人工智能进行软件测试
专知会员服务
44+阅读 · 2025年1月6日
通用人工智能:是什么?如何测试?如何实现?
专知会员服务
27+阅读 · 2024年6月19日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
73+阅读 · 2024年1月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
87+阅读 · 2023年8月7日
《5G/6G毫米波测试技术白皮书》未来移动通信论坛
专知会员服务
17+阅读 · 2022年4月15日
专知会员服务
98+阅读 · 2021年1月24日
DAI2020 SMARTS 自动驾驶挑战赛(深度强化学习)
深度强化学习实验室
15+阅读 · 2020年8月15日
无人驾驶仿真软件
智能交通技术
22+阅读 · 2019年5月9日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
VIP会员
相关VIP内容
《大语言模型驱动的智能红队测试》
专知会员服务
16+阅读 · 2025年11月26日
【新书】使用生成式人工智能进行软件测试
专知会员服务
44+阅读 · 2025年1月6日
通用人工智能:是什么?如何测试?如何实现?
专知会员服务
27+阅读 · 2024年6月19日
《综述:测试与评估中应用的人工智能工具》
专知会员服务
73+阅读 · 2024年1月22日
《应对人工智能系统测试和评估新挑战的最佳实践》
专知会员服务
87+阅读 · 2023年8月7日
《5G/6G毫米波测试技术白皮书》未来移动通信论坛
专知会员服务
17+阅读 · 2022年4月15日
专知会员服务
98+阅读 · 2021年1月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员