Modern cloud platforms are facing a sharp increase in power demand driven by the rapid adoption of AI-powered applications, making power optimization urgent under net-zero commitments and sustainability goals. Yet, reducing power in production remains challenging for latency-sensitive microservices, where performance violations directly affect user experience and operational risk. Such services exhibit heterogeneous workload characteristics and dynamic load patterns. In multi-tenant environments, contention on shared uncore resources, including last-level cache and memory bandwidth, can degrade performance, especially for memory-intensive workloads. As a safeguard, providers often run servers in performance mode, fixing core and uncore frequencies at high levels. Existing power governors largely ignore application-level performance requirements and uncore interference, leading to systematic power over-provisioning. To address this, we introduce K8SPI, a hierarchical reinforcement learning controller that jointly optimizes CPU core and uncore frequencies for cloud-native deployments. K8SPI uses a two-stage architecture: a coarse-grained agent rapidly mitigates performance violations, while a fine-grained agent minimizes power once requirements are satisfied. Using telemetry from hardware, Kubernetes, and application layers, K8SPI adapts to workload heterogeneity and cross-microservice interference. We evaluate K8SPI on a Kubernetes testbed across multiple scenarios. Results show that K8SPI reduces node-level power by 23--30\% compared with the Linux performance governor while keeping performance requirement violations below 2--3\%, even under severe uncore contention and dynamic load fluctuations.


翻译:[摘要] 现代云平台正面临由AI驱动应用快速普及所引发的电力需求急剧增长,这使得在净零承诺与可持续发展目标下,功耗优化变得刻不容缓。然而,对于延迟敏感的微服务而言,在保证性能不违规(直接关乎用户体验与运营风险)的前提下降低生产环境功耗仍具挑战性。此类服务呈现出异构的工作负载特征与动态的负载模式。在多租户环境中,共享非核心资源(包括末级缓存与内存带宽)上的争用会降低性能,尤其对于内存密集型负载。作为安全措施,提供商通常将服务器运行于性能模式,将核心与非核心频率固定在高水平。现有功耗调控器大多忽略应用级性能需求与非核心干扰,导致系统性的功耗过度配置。为此,我们提出K8SPI——一种分层强化学习控制器,用于联合优化云原生部署中CPU核心与非核心频率。K8SPI采用两阶段架构:粗粒度代理快速缓解性能违规,而细粒度代理在满足需求后最小化功耗。通过利用来自硬件层、Kubernetes层与应用层的遥测数据,K8SPI自适应于工作负载异构性及跨微服务干扰。我们在Kubernetes测试平台上对K8SPI进行了多场景评估。结果表明,与Linux性能调控器相比,K8SPI将节点级功耗降低了23%–30%,同时即使在严重的非核心争用与动态负载波动下,也能将性能需求违规率控制在2%–3%以下。

0
下载
关闭预览

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页
专知会员服务
37+阅读 · 2025年4月12日
《中国绿色算力发展研究报告(2024年)》,81页pdf
专知会员服务
32+阅读 · 2024年7月14日
人工智能训练师的再定义
竹间智能Emotibot
10+阅读 · 2019年5月15日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
如何设计基于深度学习的图像压缩算法
论智
41+阅读 · 2018年4月26日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员