Characterizing Software Aging in GPU-Based LLM Serving Systems - 专知论文

会员服务 ·

0

统计量 · 大语言模型 · 正则化项 · 张成子空间 · CUDA ·

Characterizing Software Aging in GPU-Based LLM Serving Systems

翻译：基于GPU的大语言模型服务系统中的软件老化特征研究

Domenico Cotroneo,Bojan Cukic

from arxiv, 7 pages

This paper proposes an empirical methodology to study software aging in GPU-based LLM serving systems. Traditional aging studies focus on CPU-centric software with relatively regular workloads; LLM serving is different, spanning a Python host and a CUDA device, handling requests whose cost varies by orders of magnitude, and relying on rapidly evolving software stacks. We run a 216-hour campaign across six co-located deployments under identical stress conditions, monitor host, device, and client metrics in parallel, and apply a statistical pipeline that accounts for autocorrelation and multiple testing. Our results reveal statistically significant memory aging in all deployments, with leak rates strongly dependent on the serving runtime and deployment configuration. Beyond these findings, we provide a reproducible framework that opens a research direction at the intersection of the software aging and rejuvenation and LLM serving communities.

翻译：本文提出了一种实证方法来研究基于GPU的大语言模型服务系统中的软件老化。传统的老化研究聚焦于以CPU为中心的软件,其工作负载相对规则；而大语言模型服务则不同,它横跨Python主机与CUDA设备,处理成本差异达数个数量级的请求,并依赖于快速迭代的软件栈。我们在相同压力条件下对六个共置部署开展了216小时的实验,并行监控主机、设备及客户端指标,并应用了考虑自相关性与多重检验的统计流程。实验结果显示,所有部署均存在统计上显著的内存老化,泄漏速率高度依赖于服务运行时与部署配置。除上述发现外,我们还提供了一个可复现的框架,为软件老化与更新领域及大语言模型服务领域的交叉研究开辟了新方向。

0

相关内容

统计量

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

专知会员服务

13+阅读 · 5月18日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

45+阅读 · 2025年6月9日

大语言模型的幻觉问题研究综述

大语言模型的幻觉问题研究综述

专知会员服务

44+阅读 · 2024年12月25日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

49+阅读 · 2024年7月9日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

大语言模型安全现状与挑战

大语言模型安全现状与挑战

专知会员服务

88+阅读 · 2024年1月14日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型时代的自然语言处理：挑战、机遇与发展

大模型时代的自然语言处理：挑战、机遇与发展

专知会员服务

130+阅读 · 2023年6月17日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

Tangram: Hiding GPU Heterogeneity for Efficient LLM Parallelization

Arxiv

0+阅读 · 6月15日

Service-Induced Congestion in Memory-Constrained LLM Serving

Arxiv

0+阅读 · 6月14日

LLM4RTL: Tool-Assisted LLM for RTL Generation

Arxiv

0+阅读 · 6月13日

Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints

Arxiv

0+阅读 · 6月13日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 6月7日

A Study of LLMs' Preferences for Libraries and Programming Languages

Arxiv

0+阅读 · 6月4日

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Arxiv

0+阅读 · 5月20日

LLMs for Secure Hardware Design and Related Problems: Opportunities and Challenges

Arxiv

0+阅读 · 5月20日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

26+阅读 · 2023年12月19日

Large Language Models for Software Engineering: A Systematic Literature Review

Arxiv

14+阅读 · 2023年8月28日

VIP会员

文章信息

相关主题

大语言模型

张成子空间

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

大规模语言模型在自主化网络运维与智能运维中的应用：架构、评估与安全性

专知会员服务

13+阅读 · 5月18日

《基于大型语言模型的软件工程自动化研究》最新264页

《基于大型语言模型的软件工程自动化研究》最新264页

专知会员服务

39+阅读 · 2025年7月14日

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

《基于MCP的软件设计模式视角下的大型语言模型智能体通信研究综述》

专知会员服务

45+阅读 · 2025年6月9日

大语言模型的幻觉问题研究综述

大语言模型的幻觉问题研究综述

专知会员服务

44+阅读 · 2024年12月25日

大语言模型评估技术研究进展

大语言模型评估技术研究进展

专知会员服务

49+阅读 · 2024年7月9日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

大语言模型安全现状与挑战

大语言模型安全现状与挑战

专知会员服务

88+阅读 · 2024年1月14日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

LLM in Medical Domain: 大语言模型在医学领域的应用

LLM in Medical Domain: 大语言模型在医学领域的应用

专知会员服务

103+阅读 · 2023年6月17日

大模型时代的自然语言处理：挑战、机遇与发展

大模型时代的自然语言处理：挑战、机遇与发展

专知会员服务

130+阅读 · 2023年6月17日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

深度学习的GPU：深度学习中使用GPU的经验和建议

深度学习的GPU：深度学习中使用GPU的经验和建议

数据挖掘入门与实战

11+阅读 · 2018年1月3日

相关论文

Tangram: Hiding GPU Heterogeneity for Efficient LLM Parallelization

Arxiv

0+阅读 · 6月15日

Service-Induced Congestion in Memory-Constrained LLM Serving

Arxiv

0+阅读 · 6月14日

LLM4RTL: Tool-Assisted LLM for RTL Generation

Arxiv

0+阅读 · 6月13日

Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints

Arxiv

0+阅读 · 6月13日

LLM Inference at the Edge: Mobile, NPU, and GPU Performance Efficiency Trade-offs Under Sustained Load

Arxiv

0+阅读 · 6月7日

A Study of LLMs' Preferences for Libraries and Programming Languages

Arxiv

0+阅读 · 6月4日

PALS: Power-Aware LLM Serving for Mixture-of-Experts Models

Arxiv

0+阅读 · 5月20日

LLMs for Secure Hardware Design and Related Problems: Opportunities and Challenges

Arxiv

0+阅读 · 5月20日

Large Language Models Empowered Agent-based Modeling and Simulation: A Survey and Perspectives

Arxiv

26+阅读 · 2023年12月19日

Large Language Models for Software Engineering: A Systematic Literature Review

Arxiv

14+阅读 · 2023年8月28日

相关基金

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的复杂退化模糊图像恢复

国家自然科学基金

5+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于本体及推理机的构件化软件演化信息获取及度量技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向全生命周期的可信软件测度模型和过程改进工具研究

国家自然科学基金

0+阅读 · 2014年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员