Meeting SLOs, Slashing Hours: Automated Enterprise LLM Optimization with OptiKIT - 专知论文

会员服务 ·

0

模型优化 · 语言模型 · 系统 · 自动化 · 知识 ·

Meeting SLOs, Slashing Hours: Automated Enterprise LLM Optimization with OptiKIT

翻译：满足SLO、削减工时：基于OptiKIT的企业级大语言模型自动化优化

Nicholas Santavas,Kareem Eissa,Patrycja Cieplicka,Piotr Florek,Matteo Nulli,Stefan Vasilev,Seyyed Hadi Hashemi,Antonios Gasteratos,Shahram Khadivi

from arxiv, Accepted in MLSys 2026

Enterprise LLM deployment faces a critical scalability challenge: organizations must optimize models systematically to scale AI initiatives within constrained compute budgets, yet the specialized expertise required for manual optimization remains a niche and scarce skillset. This challenge is particularly evident in managing GPU utilization across heterogeneous infrastructure while enabling teams with diverse workloads and limited LLM optimization experience to deploy models efficiently. We present OptiKIT, a distributed LLM optimization framework that democratizes model compression and tuning by automating complex optimization workflows for non-expert teams. OptiKIT provides dynamic resource allocation, staged pipeline execution with automatic cleanup, and seamless enterprise integration. In production, it delivers more than 2x GPU throughput improvement while empowering application teams to achieve consistent performance improvements without deep LLM optimization expertise. We share both the platform design and key engineering insights into resource allocation algorithms, pipeline orchestration, and integration patterns that enable large-scale, production-grade democratization of model optimization. Finally, we open-source the system to enable external contributions and broader reproducibility.

翻译：企业级大语言模型部署面临一个关键的可扩展性挑战：组织必须在有限的计算预算内系统性地优化模型以扩展人工智能计划，然而手动优化所需的专业知识仍属于稀缺的专项技能。这一挑战在管理异构基础设施的GPU利用率时尤为明显，同时需要让具有多样化工作负载且大语言模型优化经验有限的团队能够高效部署模型。本文提出OptiKIT——一个分布式大语言模型优化框架，通过为非专业团队自动化复杂的优化工作流，实现了模型压缩与调优的普及化。OptiKIT提供动态资源分配、具备自动清理功能的分阶段流水线执行以及无缝的企业集成能力。在生产环境中，该系统实现了超过2倍的GPU吞吐量提升，同时赋能应用团队在无需深厚大语言模型优化专业知识的情况下获得持续的性能改进。我们分享了平台设计的关键工程洞见，包括实现大规模生产级模型优化普及化的资源分配算法、流水线编排与集成模式。最后，我们将系统开源以促进外部贡献与更广泛的可复现性。

0

相关内容

模型优化

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

专知会员服务

35+阅读 · 2025年11月8日

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

专知会员服务

22+阅读 · 2025年10月31日

LLMOps：大语言模型的生产环境管理

LLMOps：大语言模型的生产环境管理

专知会员服务

38+阅读 · 2025年7月24日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

51+阅读 · 2025年1月12日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

102+阅读 · 2024年4月12日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

基于潜变量迁移模型的复杂工业新过程实时优化方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

Compact LLM Deployment and World Model Assisted Offloading in Mobile Edge Computing

Arxiv

0+阅读 · 2月14日

Token-Level LLM Collaboration via FusionRoute

Arxiv

0+阅读 · 2月9日

Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron

Arxiv

0+阅读 · 2月2日

Towards Automated Kernel Generation in the Era of LLMs

Arxiv

0+阅读 · 1月26日

LLM for Large-Scale Optimization Model Auto-Formulation: Bridging Flexibility and Standardization via Agentic Workflow

Arxiv

0+阅读 · 1月25日

SynPerf: A Hybrid Analytical-ML Framework for GPU Performance Prediction

Arxiv

0+阅读 · 1月21日

ToolCaching: Towards Efficient Caching for LLM Tool-calling

Arxiv

0+阅读 · 1月20日

LLM for Large-Scale Optimization Model Auto-Formulation: A Lightweight Few-Shot Learning Approach

Arxiv

0+阅读 · 1月14日

Large Language Model-Based Automatic Formulation for Stochastic Optimization Models

Arxiv

0+阅读 · 1月14日

CascadeInfer: Low-Latency and Load-Balanced LLM Serving via Length-Aware Scheduling

Arxiv

0+阅读 · 1月14日

VIP会员

文章信息

相关主题

最新内容

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

7+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

9+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

2+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

2+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

8+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

2+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

12+阅读 · 4月18日

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

《增强准备状态与战备水平：态势感知与数据驱动决策》报告

专知会员服务

12+阅读 · 4月18日

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

中文版《可靠定位、导航与授时 (APNT)：美军相关研发项目》报告

专知会员服务

9+阅读 · 4月18日

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

《自主武器系统人类-AI指挥控制中的动态管理》（2026最新450页）

专知会员服务

17+阅读 · 4月18日

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

美智库《实现空军战斗出动架次生成能力：对目标、差距、障碍与解决方案的审视》（报告）

专知会员服务

8+阅读 · 4月18日

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

《大规模作战行动中争夺情报优势：情报与电子战营-下一代角色探析》（报告）

专知会员服务

10+阅读 · 4月18日

相关VIP内容

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

专知会员服务

35+阅读 · 2025年11月8日

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

《探索军事背景下共享大语言模型：AI助手与智能体部署中可扩展性与效率的早期洞察》（含44页slides）

专知会员服务

22+阅读 · 2025年10月31日

LLMOps：大语言模型的生产环境管理

LLMOps：大语言模型的生产环境管理

专知会员服务

38+阅读 · 2025年7月24日

大语言模型在规划与调度问题上的应用

大语言模型在规划与调度问题上的应用

专知会员服务

51+阅读 · 2025年1月12日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

【伯克利博士论文】《通过高效和自动化系统赋能大型语言模型》，154页pdf

专知会员服务

20+阅读 · 2024年9月3日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

102+阅读 · 2024年4月12日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

《高超音速武器：一项再度兴起的技术》120页slides

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

美国当前高超音速导弹发展概述

无人机蜂群建模与仿真方法

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

加入Transformer-XL，这个PyTorch包能调用各种NLP预训练模型

机器之心

15+阅读 · 2019年2月13日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Compact LLM Deployment and World Model Assisted Offloading in Mobile Edge Computing

Arxiv

0+阅读 · 2月14日

Token-Level LLM Collaboration via FusionRoute

Arxiv

0+阅读 · 2月9日

Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron

Arxiv

0+阅读 · 2月2日

Towards Automated Kernel Generation in the Era of LLMs

Arxiv

0+阅读 · 1月26日

LLM for Large-Scale Optimization Model Auto-Formulation: Bridging Flexibility and Standardization via Agentic Workflow

Arxiv

0+阅读 · 1月25日

SynPerf: A Hybrid Analytical-ML Framework for GPU Performance Prediction

Arxiv

0+阅读 · 1月21日

ToolCaching: Towards Efficient Caching for LLM Tool-calling

Arxiv

0+阅读 · 1月20日

LLM for Large-Scale Optimization Model Auto-Formulation: A Lightweight Few-Shot Learning Approach

Arxiv

0+阅读 · 1月14日

Large Language Model-Based Automatic Formulation for Stochastic Optimization Models

Arxiv

0+阅读 · 1月14日

CascadeInfer: Low-Latency and Load-Balanced LLM Serving via Length-Aware Scheduling

Arxiv

0+阅读 · 1月14日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

基于潜变量迁移模型的复杂工业新过程实时优化方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式工业自动化系统可重构混合计算模型研究

国家自然科学基金

4+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

属性驱动的自适应多agent系统设计关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员