Large Foundation Model (LFM) inference is both memory- and compute-intensive, traditionally relying on GPUs. However, the limited availability and high cost have motivated the adoption of high-performance general-purpose CPUs, especially emerging 3D-stacked Static Non-Uniform Cache Architecture (3D S-NUCA) systems. These architectures offer enhanced bandwidth and locality but suffer from severe thermal challenges and uneven cache latencies due to 3D Networks-on-Chip (NoC). Optimal management of thread migration and V/f scaling is non-trivial due to LFM kernel diversity and system heterogeneity. Existing thermal management approaches often rely on oversimplified analytical models and lack adaptability. We propose AILFM, an Active Imitation Learning (AIL)-based scheduling framework that learns near-optimal thermal-aware scheduling policies from Oracle demonstrations with minimal run-time overhead. AILFM accounts for both core-level performance heterogeneity and kernel-specific behavior in LFMs to maintain thermal safety while maximizing performance. Extensive experiments show that AILFM outperforms state-of-the-art baselines and generalizes well across diverse LFM workloads.


翻译:大模型推理既具有内存密集性又具有计算密集性,传统上依赖GPU。然而,GPU供应有限且成本高昂,这促使人们采用高性能通用CPU,特别是新兴的3D堆叠静态非均匀缓存架构系统。这些架构提供了更高的带宽和局部性,但由于3D片上网络的引入,面临着严重的热挑战以及不均匀的缓存延迟。受大模型内核多样性及系统异质性影响,线程迁移和电压/频率缩放的最优管理并非易事。现有热管理方法往往依赖过度简化的分析模型且缺乏适应性。我们提出AILFM——一种基于主动模仿学习的调度框架,该框架通过极低的运行时开销从Oracle演示中学习近乎最优的热感知调度策略。AILFM兼顾大模型中的核心级性能异质性和内核特定行为,在最大化性能的同时维持热安全性。大量实验表明,AILFM优于现有先进基线方法,并能良好泛化至多样化的大模型工作负载。

0
下载
关闭预览

相关内容

从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
面向边缘智能的大模型研究进展
专知会员服务
40+阅读 · 2025年3月10日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
从感知到推理:深度思考赋能多模态大语言模型
专知会员服务
25+阅读 · 2025年11月19日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
面向边缘智能的大模型研究进展
专知会员服务
40+阅读 · 2025年3月10日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员