Serving Chain-structured Jobs with Large Memory Footprints with Application to Large Foundation Model Serving - 专知论文

会员服务 ·

0

内存 · 系统 · 结构 · 模型服务 · AI ·

Serving Chain-structured Jobs with Large Memory Footprints with Application to Large Foundation Model Serving

翻译：面向大内存占用的链式结构作业服务及其在大模型服务中的应用

Tingyang Sun,Ting He,I-Hong Hou

from arxiv, Technical report

As a current trend in Artificial Intelligence (AI), large foundation models are increasingly employed as the core of AI services. However, even after training, serving such models at scale remains a challenging task due to their heavy resource footprints, particularly in terms of GPU memory. While recent works revealed unique characteristics of systems serving foundation models that distinguish them from traditional distributed computing systems, there is still a lack of fundamental understanding of the underlying system management problems. This work aims at addressing this gap by extracting a novel problem of "server chain composition" via block placement and cache allocation for serving chainstructured jobs with large memory footprints, which models a fundamental problem in serving large foundation models through pipeline parallelism. After showing the NP-hardness of the optimal solution, the focus is turned to developing scalable algorithms with guaranteed performance under state-of-the-art load balancing. Application of the proposed solution to a distributed large language model (LLM) serving system shows significant reduction of response times compared to state-of-the-art solutions.

翻译：随着人工智能（AI）的当前发展趋势，大型基础模型日益被用作AI服务的核心。然而，即使在训练完成后，由于这些模型巨大的资源占用（特别是GPU内存），大规模部署此类服务仍是一项具有挑战性的任务。近期研究揭示了服务于基础模型的系统具有区别于传统分布式计算系统的独特特性，但对其底层系统管理问题的基本认知仍存在不足。本研究旨在填补这一空白，通过为内存占用量大的链式结构作业服务设计块放置与缓存分配方案，提炼出一个新颖的“服务器链组合”问题——该问题通过流水线并行性刻画了大型基础模型服务中的基本问题。在证明最优解具有NP难性质后，研究重点转向开发在最新负载均衡技术下具有性能保证的可扩展算法。将所提方案应用于分布式大语言模型（LLM）服务系统后，相比最新方案，响应时间实现了显著降低。

0

相关内容

【NTU博士论文】基础模型的高效适配

【NTU博士论文】基础模型的高效适配

专知会员服务

15+阅读 · 3月24日

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

工业大模型：体系架构、关键技术与典型应用

工业大模型：体系架构、关键技术与典型应用

专知会员服务

63+阅读 · 2024年10月14日

《大模型数据增强》综述

《大模型数据增强》综述

专知会员服务

117+阅读 · 2024年1月30日

大模型工具学习探索

大模型工具学习探索

专知会员服务

168+阅读 · 2023年12月28日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

行业大模型标准体系及能力架构研究报告（附下载），58页pdf

行业大模型标准体系及能力架构研究报告（附下载），58页pdf

专知会员服务

177+阅读 · 2023年9月17日

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

专知会员服务

98+阅读 · 2023年3月10日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

一句代码发布你的TensorFlow模型，简明TensorFlow Serving上手教程

一句代码发布你的TensorFlow模型，简明TensorFlow Serving上手教程

专知

13+阅读 · 2018年11月30日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

随机运输服务网络设计场景树压缩及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving

Arxiv

0+阅读 · 4月30日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

Horizon-LM: A RAM-Centric Architecture for LLM Training

Arxiv

0+阅读 · 4月6日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

WWW.Serve: Interconnecting Global LLM Services through Decentralization

Arxiv

0+阅读 · 3月24日

WWW.Serve: Interconnecting Global LLM Services through Decentralization

Arxiv

0+阅读 · 3月21日

Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective

Arxiv

0+阅读 · 3月17日

MoEless: Efficient MoE LLM Serving via Serverless Computing

Arxiv

0+阅读 · 3月6日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

VIP会员

文章信息

相关主题

最新内容

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

《不确定性环境下基于智能体框架中实时多机器人任务分配的贝叶斯网络》博士论文

专知会员服务

0+阅读 · 4分钟前

首场人工智能战争——俄乌战争（中文版、原文下载）

首场人工智能战争——俄乌战争（中文版、原文下载）

专知会员服务

0+阅读 · 今天1:52

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

专知会员服务

2+阅读 · 今天1:36

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

专知会员服务

1+阅读 · 今天1:28

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

专知会员服务

1+阅读 · 今天1:16

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

专知会员服务

2+阅读 · 5月8日

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

生成-过滤-控制-重放：LLM强化学习中Rollout策略的全面综述

专知会员服务

0+阅读 · 5月8日

认知战与交战性质的改变：神经战略视角

认知战与交战性质的改变：神经战略视角

专知会员服务

5+阅读 · 5月8日

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

美国《国防授权法案》指令要求界定“认知战”：区分相关概念

专知会员服务

4+阅读 · 5月8日

人工智能对特定国防资源管理流程的影响（万字长文）

人工智能对特定国防资源管理流程的影响（万字长文）

专知会员服务

5+阅读 · 5月8日

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

《多域作战概念实证检验：美军“史诗怒火”行动中跨域协同的地理空间混合方法分析研究》245页报告

专知会员服务

8+阅读 · 5月8日

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

《预设时间的单次协同估计、制导与控制框架：实现同时目标拦截》2026最新40页报告

专知会员服务

10+阅读 · 5月8日

《美空军条令出版物：网络空间作战（2026版）》

《美空军条令出版物：网络空间作战（2026版）》

专知会员服务

11+阅读 · 5月8日

《美空军条令出版物：空军作战中的信息（2026版）》

《美空军条令出版物：空军作战中的信息（2026版）》

专知会员服务

13+阅读 · 5月8日

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

为指挥控制与防御构建智能网络结构：集成感知与通信以提升频谱利用率

专知会员服务

9+阅读 · 5月8日

相关VIP内容

【NTU博士论文】基础模型的高效适配

【NTU博士论文】基础模型的高效适配

专知会员服务

15+阅读 · 3月24日

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

工业大模型：体系架构、关键技术与典型应用

工业大模型：体系架构、关键技术与典型应用

专知会员服务

63+阅读 · 2024年10月14日

《大模型数据增强》综述

《大模型数据增强》综述

专知会员服务

117+阅读 · 2024年1月30日

大模型工具学习探索

大模型工具学习探索

专知会员服务

168+阅读 · 2023年12月28日

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

大模型如何部署服务？ CMU最新《高效生成式大型语言模型服务：从算法到系统》综述

专知会员服务

78+阅读 · 2023年12月27日

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

大模型用于制造业？东北大学等《大型语言模型智能制造业应用》综述，详述大模型制造业技术路线图

专知会员服务

102+阅读 · 2023年12月13日

行业大模型标准体系及能力架构研究报告（附下载），58页pdf

行业大模型标准体系及能力架构研究报告（附下载），58页pdf

专知会员服务

177+阅读 · 2023年9月17日

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

大模型如何决策？Google伯克利MIT等最新《基础模型决策:问题、方法和机会》论文，详述序列决策与大语言模型的技术交叉

专知会员服务

98+阅读 · 2023年3月10日

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

【O'Reilly TensorFlow Conference 2019】使用TensorFlow服务的高级模型部署（Advanced model deployments with TensorFlow Serving），谷歌开发专家Hannes Hapke

专知会员服务

23+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

《人员配置对陆军突击清障车与联合突击桥战备状态的影响研究》

【博士论文】可解释人工智能的数学基础与 Bandit 优化的研究进展

《提升战术级作战规划水平：城市进攻作战中的机动样式研究》

管理咨询报告：美国国防部量子技术开发与实施评估（译文）

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

一句代码发布你的TensorFlow模型，简明TensorFlow Serving上手教程

一句代码发布你的TensorFlow模型，简明TensorFlow Serving上手教程

专知

13+阅读 · 2018年11月30日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

相关论文

AMMA: A Multi-Chiplet Memory-Centric Architecture for Low-Latency 1M Context Attention Serving

Arxiv

0+阅读 · 4月30日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

Safety at Scale: A Comprehensive Survey of Large Model and Agent Safety

Arxiv

0+阅读 · 4月14日

Horizon-LM: A RAM-Centric Architecture for LLM Training

Arxiv

0+阅读 · 4月6日

CuTeGen: An LLM-Based Agentic Framework for Generation and Optimization of High-Performance GPU Kernels using CuTe

Arxiv

0+阅读 · 4月1日

WWW.Serve: Interconnecting Global LLM Services through Decentralization

Arxiv

0+阅读 · 3月24日

WWW.Serve: Interconnecting Global LLM Services through Decentralization

Arxiv

0+阅读 · 3月21日

Efficient LLM Serving for Agentic Workflows: A Data Systems Perspective

Arxiv

0+阅读 · 3月17日

MoEless: Efficient MoE LLM Serving via Serverless Computing

Arxiv

0+阅读 · 3月6日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

相关基金

基于多存储介质的在线社交网络数据节能存储研究

国家自然科学基金

0+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向大规模动态异构网络的支持多用户并发任务的物联网应用构建方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

适应于大数据特性的智能存储技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

云计算环境中面向时间约束的大规模并行业务流程的监控策略研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

面向大数据的高时效并行计算机系统结构与技术

国家自然科学基金

0+阅读 · 2014年12月31日

大数据高效能存储与管理方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

随机运输服务网络设计场景树压缩及应用研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员