Shuffle exchanges intermediate results between upstream and downstream operators in distributed data processing and is usually the bottleneck due to factors such as small random I/Os and network contention. Several systems have been designed to improve shuffle efficiency, but from our experiences of running ultra-large clusters at Alibaba Cloud MaxCompute platform, we observe that they can not adapt to highly dynamic job characteristics and cluster resource conditions, and their fault tolerance mechanisms are passive and inefficient when failures are inevitable. To tackle their limitations, we design and implement FuxiShuffle as a general data shuffle service for the ultra-large production environment of MaxCompute, featuring good adaptability and efficient failure resilience. Specifically, to achieve good adaptability, FuxiShuffle dynamically selects the shuffle mode based on runtime information, conducts progress-aware scheduling for the downstream workers, and automatically determines the most suitable backup strategy for each shuffle data chunk. To make failure resilience efficient, FuxiShuffle actively ensures data availability with multi-replica failover, prevents memory overflow with careful memory management, and employs an incremental recovery mechanism that does not lose computation progress. Our experiments show that, compared to baseline systems, FuxiShuffle significantly reduces not only end-to-end job completion time but also aggregate resource consumption. Micro experiments suggest that our designs are effective in improving adaptability and failure resilience.


翻译:在分布式数据处理中,Shuffle负责在上游与下游算子间交换中间结果,通常因小规模随机I/O及网络争用等因素成为系统瓶颈。已有若干系统旨在提升Shuffle效率,但根据我们在阿里云MaxCompute平台超大规模集群的运维经验,发现这些系统难以适应高度动态的作业特性与集群资源状况,且其容错机制在故障不可避免时呈现被动低效的特点。为突破现有局限,我们设计并实现了FuxiShuffle作为MaxCompute超大规模生产环境中的通用数据Shuffle服务,其核心特性在于良好的自适应能力与高效的故障弹性。具体而言,为实现良好的自适应性,FuxiShuffle依据运行时信息动态选择Shuffle模式,对下游工作节点实施进度感知调度,并为每个Shuffle数据块自动确定最适宜的备份策略。为实现高效的故障弹性,FuxiShuffle通过多副本故障转移主动保障数据可用性,通过精细的内存管理防止内存溢出,并采用不丢失计算进度的增量恢复机制。实验表明,与基线系统相比,FuxiShuffle不仅显著降低了端到端作业完成时间,同时减少了总体资源消耗。微观实验证实,我们的设计在提升自适应性与故障弹性方面具有显著效果。

0
下载
关闭预览

相关内容

国家标准《信息技术云计算参考架构》
专知会员服务
37+阅读 · 2024年5月24日
企业数据治理痛点与阿里巴巴数据治理方案
专知会员服务
53+阅读 · 2022年7月4日
阿里云发布《中国云原生数据湖应用洞察白皮书》
专知会员服务
43+阅读 · 2022年4月15日
专知会员服务
48+阅读 · 2021年2月2日
分布式核心技术知识图谱,带走不谢
架构师之路
12+阅读 · 2019年9月23日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
专访阿里亚顿:Serverless与BFF与前端
前端之巅
45+阅读 · 2019年5月8日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员