A monitoring system for collecting and aggregating metrics from distributed clouds - 专知论文

会员服务 ·

0

分布式云 · 系统 · 云监控 · 接口 · 控制平面 ·

A monitoring system for collecting and aggregating metrics from distributed clouds

翻译：分布式云监控系统：指标采集与聚合

Tamara Ranković,Mateja Rilak,Janko Rakonjac,Miloš Simić

Applications requiring real-time processing of large volumes of data have been the main driver for rethinking the traditional cloud, giving rise to novel cloud models. Distributed cloud (DC) is a model that allows users to dynamically create and dispose of strategically located ad-hoc clouds that contain resources best tailored to their needs. It is essential for this model to provide a high degree of observability for it to be viable in real-world scenarios. In this paper, we present the design and implementation of a monitoring system that collects metrics from DCs and makes them accessible to diverse clients. Agents running on nodes are responsible for collecting machine-, container-, and application-level metrics. During the health-check protocol, that data is transferred from the node to the DC's control plane running inside the cloud. There, it is persisted and served via multiple APIs, including a streaming API. Moreover, node metrics are aggregated for every DC in order to provide a more comprehensive view of the system's state.

翻译：需要实时处理海量数据的应用已成为重新思考传统云架构的主要驱动力，催生了新型云模型。分布式云是一种允许用户动态创建和处置战略性分布的临时云（ad-hoc clouds）的模型，这些云包含最贴合用户需求的资源。该模型必须提供高度可观测性，方能在实际场景中具备可行性。本文提出一种监控系统的设计与实现，该系统能够从分布式云中采集指标数据，并为多样化客户端提供访问接口。运行于节点上的代理程序负责采集机器级、容器级和应用级指标。在健康检查协议执行期间，数据从节点传输至运行在云内的分布式云控制平面。数据在控制平面持久化存储，并通过包括流式API在内的多种接口对外提供服务。此外，系统会对每个分布式云的所有节点指标进行聚合，以提供更全面的系统状态视图。

0

相关内容

分布式云

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

专知会员服务

14+阅读 · 5月20日

国家标准《信息技术云计算参考架构》

国家标准《信息技术云计算参考架构》

专知会员服务

37+阅读 · 2024年5月24日

《云原生标准体系白皮书（2023）》发布，52页pdf

《云原生标准体系白皮书（2023）》发布，52页pdf

专知会员服务

54+阅读 · 2023年9月21日

中国金融云行业研究报告

中国金融云行业研究报告

专知会员服务

31+阅读 · 2022年9月22日

《分布式云发展白皮书》重磅发布（附下载），47页pdf

《分布式云发展白皮书》重磅发布（附下载），47页pdf

专知会员服务

90+阅读 · 2022年6月25日

分布式系统稳定性建设指南2022年（100页pdf）

分布式系统稳定性建设指南2022年（100页pdf）

专知会员服务

26+阅读 · 2022年6月24日

完整译文《作战云：在军事行动范围内实现多域指挥与控制》美国空军

完整译文《作战云：在军事行动范围内实现多域指挥与控制》美国空军

专知会员服务

211+阅读 · 2022年5月30日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知会员服务

45+阅读 · 2022年4月11日

2021年中国物联网云平台发展研究报告

专知会员服务

42+阅读 · 2021年9月14日

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

专知会员服务

21+阅读 · 2020年10月31日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

中文版《作战云：在军事行动范围内实现多域指挥与控制》美国空军

中文版《作战云：在军事行动范围内实现多域指挥与控制》美国空军

专知

136+阅读 · 2022年5月31日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

分布式核心技术知识图谱，带走不谢

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

【数据中台】什么是数据中台？

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

云游戏行业发展趋势分析报告

云游戏行业发展趋势分析报告

行业研究报告

13+阅读 · 2019年3月24日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

面向移动云环境的委托式数据安全共享关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云计算数据隐私保护的访问控制策略模型与技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

可信多云协作关键安全问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

Workflow as a Service Broker in Cloud Environment: A Systematic Mapping Study

Arxiv

0+阅读 · 4月28日

vMODB: Unifying Event and Data Management for Distributed Asynchronous Applications

Arxiv

0+阅读 · 4月21日

Optimizing Memory Allocation in Distributed Clusters with Predictive Modeling

Arxiv

0+阅读 · 4月20日

Cloud-native and Distributed Systems for Efficient and Scalable Large Language Models -- A Research Agenda

Arxiv

0+阅读 · 4月19日

CloudFormer: An Attention-based Performance Prediction for Public Clouds with Unknown Workload

Arxiv

0+阅读 · 3月25日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey

Arxiv

0+阅读 · 3月18日

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Arxiv

0+阅读 · 3月9日

A Formal Framework for Predicting Distributed System Performance under Faults (Extended Version)

Arxiv

0+阅读 · 2月24日

A Formal Framework for Predicting Distributed System Performance under Faults

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

0+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

2+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

1+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

0+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

2+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

0+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

0+阅读 · 7月17日

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

《火线上的后勤保障：对抗环境下的随机规划模型研究——俄乌场景案例分析》99页

专知会员服务

11+阅读 · 7月16日

《无人地面战车（UGV）的崛起》报告

《无人地面战车（UGV）的崛起》报告

专知会员服务

7+阅读 · 7月16日

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

《无人机参数化与集群飞行创新项目的监控流程管理：模型、策略及自适应解决方案》

专知会员服务

6+阅读 · 7月16日

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

《美军开放式任务系统（OMS）定义与文档（D&D）——Java关键抽象层（CAL）接口生成规范》47页标准

专知会员服务

12+阅读 · 7月16日

美陆军任务式指挥人工智能解决方案

美陆军任务式指挥人工智能解决方案

专知会员服务

11+阅读 · 7月16日

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

ICML 2026 | 理论级自动形式化：从孤立命题到统一形式化知识库

专知会员服务

9+阅读 · 7月16日

综述 | 现代智能体自我改进，从模型更新到脚手架演化

综述 | 现代智能体自我改进，从模型更新到脚手架演化

专知会员服务

15+阅读 · 7月16日

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

美国陆军宣布“项目融合-顶点6”：现代化进程的关键里程碑

专知会员服务

13+阅读 · 7月15日

相关VIP内容

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

《利用云计算推进美国国家安全：强化情报、网络韧性与国土防御战略》

专知会员服务

14+阅读 · 5月20日

国家标准《信息技术云计算参考架构》

国家标准《信息技术云计算参考架构》

专知会员服务

37+阅读 · 2024年5月24日

《云原生标准体系白皮书（2023）》发布，52页pdf

《云原生标准体系白皮书（2023）》发布，52页pdf

专知会员服务

54+阅读 · 2023年9月21日

中国金融云行业研究报告

中国金融云行业研究报告

专知会员服务

31+阅读 · 2022年9月22日

《分布式云发展白皮书》重磅发布（附下载），47页pdf

《分布式云发展白皮书》重磅发布（附下载），47页pdf

专知会员服务

90+阅读 · 2022年6月25日

分布式系统稳定性建设指南2022年（100页pdf）

分布式系统稳定性建设指南2022年（100页pdf）

专知会员服务

26+阅读 · 2022年6月24日

完整译文《作战云：在军事行动范围内实现多域指挥与控制》美国空军

完整译文《作战云：在军事行动范围内实现多域指挥与控制》美国空军

专知会员服务

211+阅读 · 2022年5月30日

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

重磅发布|《信息系统稳定性保障能力建设指南（1.0）》，附下载方式

专知会员服务

45+阅读 · 2022年4月11日

2021年中国物联网云平台发展研究报告

专知会员服务

42+阅读 · 2021年9月14日

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

【2020新书】数据工程师的指南：Azure存储、流媒体和批处理分析，450页pdf

专知会员服务

21+阅读 · 2020年10月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《边缘端实时无线感知赋能现场多机器人部署》200页

人工智能赋能战场情报：提速决策进程

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

战力倍增器：自主武器系统与乌克兰及加沙冲突

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

中文版《作战云：在军事行动范围内实现多域指挥与控制》美国空军

中文版《作战云：在军事行动范围内实现多域指挥与控制》美国空军

专知

136+阅读 · 2022年5月31日

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

国防科技大学发布最新「3D点云深度学习」综述论文，带你全面了解最新点云学习方法

专知

21+阅读 · 2019年12月31日

分布式核心技术知识图谱，带走不谢

分布式核心技术知识图谱，带走不谢

架构师之路

12+阅读 · 2019年9月23日

【数据中台】什么是数据中台？

【数据中台】什么是数据中台？

产业智能官

18+阅读 · 2019年7月30日

云游戏行业发展趋势分析报告

云游戏行业发展趋势分析报告

行业研究报告

13+阅读 · 2019年3月24日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【大数据】海量数据分析能力形成和大数据关键技术

【大数据】海量数据分析能力形成和大数据关键技术

产业智能官

17+阅读 · 2018年10月29日

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

一张长图，让你直击推荐系统背后算法、架构、深度学习等运用！

AI前线

11+阅读 · 2018年5月15日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

Workflow as a Service Broker in Cloud Environment: A Systematic Mapping Study

Arxiv

0+阅读 · 4月28日

vMODB: Unifying Event and Data Management for Distributed Asynchronous Applications

Arxiv

0+阅读 · 4月21日

Optimizing Memory Allocation in Distributed Clusters with Predictive Modeling

Arxiv

0+阅读 · 4月20日

Cloud-native and Distributed Systems for Efficient and Scalable Large Language Models -- A Research Agenda

Arxiv

0+阅读 · 4月19日

CloudFormer: An Attention-based Performance Prediction for Public Clouds with Unknown Workload

Arxiv

0+阅读 · 3月25日

STRATUS: A Multi-agent System for Autonomous Reliability Engineering of Modern Clouds

Arxiv

0+阅读 · 3月19日

Edge-Cloud Collaborative Computing on Distributed Intelligence and Model Optimization: A Survey

Arxiv

0+阅读 · 3月18日

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Arxiv

0+阅读 · 3月9日

A Formal Framework for Predicting Distributed System Performance under Faults (Extended Version)

Arxiv

0+阅读 · 2月24日

A Formal Framework for Predicting Distributed System Performance under Faults

Arxiv

0+阅读 · 2月22日

相关基金

面向移动云环境的委托式数据安全共享关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云存储系统中节能关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向云计算数据隐私保护的访问控制策略模型与技术研究

国家自然科学基金

4+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

多租户数据管理关键技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

可信多云协作关键安全问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

移动云服务中的隐私保护与安全保障机制研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员