Literature Study on Operational Data Analytics Frameworks in Large-scale Computing Infrastructures - 专知论文

会员服务 ·

0

运维 · 分析 · 数据分析 · 系统 · 演进 ·

Literature Study on Operational Data Analytics Frameworks in Large-scale Computing Infrastructures

翻译：大规模计算基础设施运维数据分析框架的文献研究

Shekhar Suman,Xiaoyu Chu,Alexandru Iosup

By 2025, there are zettabytes of data generated every year. The size and complexity of modern large-scale computing infrastructures like High-Performance Computing (HPC) systems continue to evolve and become complex, leaving us wondering about their manageability and sustainability concerns. Because of this reason, those complex systems are provided with fine-grained monitoring and Operational Data Analytics (ODA) capabilities to optimise their efficiency. In this literature study, we list the fundamental pillars of the large-scale computing infrastructures which enable its ODA capabilities, and conduct a study of the popular ODA frameworks operating in various such environments (predominantly HPC). Based on that, we propose a more holistic ODA framework matching the various layers of a large-scale graph-processing distributed ecosystem proposed by Sherif Sak et al, that extends the ODA functionalities presented in an existing novel ODA framework proposed by Netti et al. We compare the holistic ODA framework proposed by us to some of the state-of-the-art frameworks that we study as part of this literature to highlight the novelty, which would hopefully draw more attention to perform extensive research in this field. As part of creating awareness, we highlight the significant operational efficiencies observed as a result of the implementation of the state-of-the-art ODA frameworks to make the study appear beneficial for the readers, and lastly, discuss the trending research work ongoing in this field.

翻译：到2025年，每年将产生泽字节级数据。现代大规模计算基础设施（如高性能计算系统）的规模和复杂度持续演进，其可管理性与可持续性问题引发关注。为此，此类复杂系统配备了细粒度监控和运维数据分析能力以优化运行效率。本文通过文献研究，首先梳理了支撑大规模计算基础设施实现运维数据分析能力的核心支柱，继而针对运行于多种环境（以高性能计算为主）中的主流运维数据分析框架展开系统研究。基于此，我们提出了一个更全面的运维数据分析框架，该框架适配Sherif Sak等人提出的大规模图处理分布式生态系统的多层架构，同时扩展了Netti等人现有创新框架中的运维数据分析功能。我们将所提出的全维框架与本研究涉及的部分前沿框架进行对比，以突出其创新价值，有望吸引更多学者在该领域开展深入研究。为增强认知，我们重点阐述了前沿运维数据分析框架实施带来的显著运行效率提升，使研究对读者更具参考价值，最后讨论了该领域当前的研究热点。

0

相关内容

金融业AI大模型智算网络研究报告

金融业AI大模型智算网络研究报告

专知会员服务

18+阅读 · 2025年6月1日

高质量大模型基础设施研究报告（2024年）

高质量大模型基础设施研究报告（2024年）

专知会员服务

43+阅读 · 2025年1月16日

《数据基础设施和研发基础设施项目之间互联互通框架》美国国家科学技术委员会最新报告

《数据基础设施和研发基础设施项目之间互联互通框架》美国国家科学技术委员会最新报告

专知会员服务

29+阅读 · 2025年1月4日

【干货书】高性能大数据计算，275页pdf

【干货书】高性能大数据计算，275页pdf

专知会员服务

81+阅读 · 2023年1月3日

算力时代网络运力研究报告（2022），30页pdf

算力时代网络运力研究报告（2022），30页pdf

专知会员服务

37+阅读 · 2022年10月14日

工信部印发《“十四五”大数据产业发展规划》，20页pdf

工信部印发《“十四五”大数据产业发展规划》，20页pdf

专知会员服务

54+阅读 · 2021年12月2日

大数据平台安全研究报告，36页pdf

专知会员服务

42+阅读 · 2021年3月28日

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【大规模数据系统，552页ppt】Large-scale Data Systems

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【Manning新书】大规模数据结构和算法，306页pdf

【Manning新书】大规模数据结构和算法，306页pdf

专知

14+阅读 · 2022年5月30日

《2021—2022中国大数据产业发展报告》

《2021—2022中国大数据产业发展报告》

专知

13+阅读 · 2022年1月23日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

THU数据派

40+阅读 · 2019年5月21日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

智能交通大数据最新论文综述-附PDF下载

智能交通大数据最新论文综述-附PDF下载

专知

23+阅读 · 2019年1月21日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Modeling and Optimization for Massive Data Allocation in Database

Arxiv

0+阅读 · 5月29日

A Study on the Resource Utilization and User Behavior on Titan Supercomputer

Arxiv

0+阅读 · 5月1日

Institutionalizing Best Practices in Research Computing: A Framework and Case Study for Improving User Onboarding

Arxiv

0+阅读 · 4月23日

On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers

Arxiv

0+阅读 · 4月21日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

A Periodic Space of Distributed Computing: Vision & Framework

Arxiv

0+阅读 · 4月14日

A Framework and Prototype for a Navigable Map of Datasets in Engineering Design and Systems Engineering

Arxiv

0+阅读 · 3月18日

Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey

Arxiv

0+阅读 · 3月18日

Data Management For Large Language Models: A Survey

Arxiv

17+阅读 · 2023年12月4日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

232+阅读 · 2023年4月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

金融业AI大模型智算网络研究报告

金融业AI大模型智算网络研究报告

专知会员服务

18+阅读 · 2025年6月1日

高质量大模型基础设施研究报告（2024年）

高质量大模型基础设施研究报告（2024年）

专知会员服务

43+阅读 · 2025年1月16日

《数据基础设施和研发基础设施项目之间互联互通框架》美国国家科学技术委员会最新报告

《数据基础设施和研发基础设施项目之间互联互通框架》美国国家科学技术委员会最新报告

专知会员服务

29+阅读 · 2025年1月4日

【干货书】高性能大数据计算，275页pdf

【干货书】高性能大数据计算，275页pdf

专知会员服务

81+阅读 · 2023年1月3日

算力时代网络运力研究报告（2022），30页pdf

算力时代网络运力研究报告（2022），30页pdf

专知会员服务

37+阅读 · 2022年10月14日

工信部印发《“十四五”大数据产业发展规划》，20页pdf

工信部印发《“十四五”大数据产业发展规划》，20页pdf

专知会员服务

54+阅读 · 2021年12月2日

大数据平台安全研究报告，36页pdf

专知会员服务

42+阅读 · 2021年3月28日

大规模时间序列分析框架的研究与实现，计算机学报

大规模时间序列分析框架的研究与实现，计算机学报

专知会员服务

59+阅读 · 2020年7月13日

【大规模数据系统，552页ppt】Large-scale Data Systems

【大规模数据系统，552页ppt】Large-scale Data Systems

专知会员服务

61+阅读 · 2019年12月21日

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

【O'Reilly AI Conference 2019】部署大规模分布式数据（How to deploy large-scale distributed data analytics and machine learning on containers (sponsored by HPE))，HPE BlueData，Thomas Phelan

专知会员服务

19+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【Manning新书】大规模数据结构和算法，306页pdf

【Manning新书】大规模数据结构和算法，306页pdf

专知

14+阅读 · 2022年5月30日

《2021—2022中国大数据产业发展报告》

《2021—2022中国大数据产业发展报告》

专知

13+阅读 · 2022年1月23日

微软研究院新版书籍《数据科学基础》，附479页PDF下载

微软研究院新版书籍《数据科学基础》，附479页PDF下载

专知

47+阅读 · 2019年9月20日

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

微软研究院出品《数据科学基础》，放眼未来40年（附PDF下载）

THU数据派

40+阅读 · 2019年5月21日

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

实战▍一个完整的电信客服分析平台大数据项目：架构、实现、数据

36大数据

13+阅读 · 2019年3月20日

智能交通大数据最新论文综述-附PDF下载

智能交通大数据最新论文综述-附PDF下载

专知

23+阅读 · 2019年1月21日

【大数据】大数据参考架构和关键技术（综合）

【大数据】大数据参考架构和关键技术（综合）

产业智能官

14+阅读 · 2018年11月22日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

相关论文

Modeling and Optimization for Massive Data Allocation in Database

Arxiv

0+阅读 · 5月29日

A Study on the Resource Utilization and User Behavior on Titan Supercomputer

Arxiv

0+阅读 · 5月1日

Institutionalizing Best Practices in Research Computing: A Framework and Case Study for Improving User Onboarding

Arxiv

0+阅读 · 4月23日

On the Power Saving in High-Speed Ethernet-based Networks for Supercomputers and Data Centers

Arxiv

0+阅读 · 4月21日

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Arxiv

1+阅读 · 4月21日

A Periodic Space of Distributed Computing: Vision & Framework

Arxiv

0+阅读 · 4月14日

A Framework and Prototype for a Navigable Map of Datasets in Engineering Design and Systems Engineering

Arxiv

0+阅读 · 3月18日

Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey

Arxiv

0+阅读 · 3月18日

Data Management For Large Language Models: A Survey

Arxiv

17+阅读 · 2023年12月4日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

232+阅读 · 2023年4月7日

相关基金

基于大数据的微观宏观行为综合分析

国家自然科学基金

1+阅读 · 2015年12月31日

基于粒计算的大数据特征融合理论与方法

国家自然科学基金

8+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员