The rapid growth in compute demand from artificial intelligence (AI) has driven a massive surge in data center construction, precipitating an energy and sustainability crisis. Motivated by the abundant solar energy in outer space and the recent sharp reduction in space launch costs, orbital data centers are emerging as a potential pathway for the future scaling of AI compute infrastructure. While the cold background in vacuum seems appealing for cooling, computing systems operating in space without convection ultimately rely on radiative cooling, requiring large-area radiators. Such limitations in thermal management pose a significant challenge for deploying the standard liquid/air-cooled computers in space. In this work, we investigate the impact of the thermal constraints in space on both graphics processing units (GPUs) with high-bandwidth memory (HBM) and the emerging compute-in-memory (CIM) accelerators. We develop a radiator-in-the-loop co-design methodology that directly links the permitted system TOPS (terra-operations per second) with the practical radiator cooling capacity in space. Our thermal simulations reveal that the separately located GPU die and HBMs create severe thermal hotspots under limited radiator capacity, necessitating GPU thermal throttling. In contrast, CIM accelerators exhibit a much more uniform heat distribution and consistently outperform GPUs in TOPS/W across a wide range of radiator budgets. We systematically evaluated the performance of CIM and GPU across various AI workloads and demonstrated that CIM has a magnified advantage for deployment in space under realistic thermal constraints.


翻译:人工智能计算需求的快速增长推动了数据中心大规模建设,由此引发了能源与可持续性危机。受太空中丰富的太阳能资源以及近期太空发射成本急剧下降的驱动,轨道数据中心正逐渐成为未来AI计算基础设施扩展的潜在路径。尽管真空环境中的低温背景看似有利于冷却,但在太空中运行的计算系统由于缺乏对流作用,最终只能依赖辐射冷却,这需要大面积散热器。这种热管理限制为在太空中部署标准液冷/风冷计算机带来了重大挑战。本研究探讨了太空热约束对配备高带宽内存的图形处理器以及新兴的计算内存加速器的影响。我们开发了一种散热器在环协同设计方法,将允许的系统TOPS与太空中实际散热器冷却能力直接关联。热仿真结果表明,在有限散热器容量条件下,分离布局的GPU芯片与HBM会产生严重热热点,迫使GPU进行热节流。相比之下,CIM加速器展现出更均匀的热分布,并在广泛散热器预算范围内始终在TOPS/W指标上优于GPU。我们系统评估了CIM与GPU在各类AI工作负载上的性能,证明在实际热约束条件下,CIM在太空部署中具有更显著的性能优势。

0
下载
关闭预览

相关内容

【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
科技专题研究:AI智算时代已至,算力芯片加速升级
专知会员服务
57+阅读 · 2024年1月13日
智算中心——赋能AI产业化、产业AI化
专知会员服务
44+阅读 · 2023年8月27日
神经网络加速器架构概述
专知会员服务
37+阅读 · 2022年4月23日
专知会员服务
29+阅读 · 2021年2月26日
【深度学习】深度学习技术发展趋势浅析
产业智能官
11+阅读 · 2019年4月13日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
硬件加速神经网络综述
计算机研究与发展
26+阅读 · 2019年2月1日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
CCF发布2017-2018中国计算机科学技术发展报告
中国计算机学会
18+阅读 · 2018年11月7日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月13日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
5+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员