EWSJF：一种面向混合工作负载大语言模型推理的混合分区自适应调度器 (EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed-Workload LLM Inference) - 专知论文

会员服务 ·

0

调度 · 混合 · 负载 · 自适应 · 调度器 ·

EWSJF: An Adaptive Scheduler with Hybrid Partitioning for Mixed-Workload LLM Inference

翻译：EWSJF：一种面向混合工作负载大语言模型推理的混合分区自适应调度器

Bronislav Sidik,Chaya Levi,Joseph Kampeas

Serving Large Language Models (LLMs) under mixed workloads--short, latency-sensitive interactive queries alongside long, throughput-oriented batch requests--poses a fundamental scheduling challenge. Standard First-Come, First-Served (FCFS) policies suffer from severe head-of-line blocking, leading to high tail latency and underutilized hardware. We introduce EWSJF (Effective Workload-based Shortest Job First), an adaptive request-level scheduler that learns workload structure in real time to jointly improve fairness and throughput. EWSJF operates upstream of execution-level schedulers and integrates four components: (1) Refine-and-Prune, an unsupervised partitioning algorithm that discovers performance-homogeneous request groups; (2) Dynamic Queue Routing for assigning requests to these groups; (3) Density-Weighted Scoring, a context-aware prioritization function balancing urgency and fairness; and (4) Bayesian Meta-Optimization, which continuously tunes scoring and partitioning parameters based on live performance feedback. Implemented in vLLM, EWSJF improves end-to-end throughput by over 30% and reduces average Time-To-First-Token for short requests by up to 4x compared to FCFS. These results demonstrate that adaptive, learning-based request scheduling is a critical missing layer for efficient and responsive LLM serving. Implementation available at https://anonymous.4open.science/r/vllm_0110-32D8.

翻译：在混合工作负载（即同时存在短时延敏感的交互式查询与长吞吐导向的批处理请求）下服务大语言模型（LLMs）面临根本性的调度挑战。标准的先到先服务（FCFS）策略会遭受严重的队头阻塞，导致高尾延迟和硬件利用率不足。本文提出EWSJF（基于有效工作负载的最短作业优先），一种自适应请求级调度器，能够实时学习工作负载结构，以协同提升公平性与吞吐量。EWSJF运行在执行级调度器之上，并集成四个组件：（1）Refine-and-Prune，一种无监督分区算法，用于发现性能同质的请求组；（2）动态队列路由，用于将请求分配至这些组；（3）密度加权评分，一种平衡紧迫性与公平性的上下文感知优先级函数；（4）贝叶斯元优化，基于实时性能反馈持续调整评分与分区参数。在vLLM中实现的EWSJF相比FCFS，端到端吞吐量提升超过30%，短请求的平均首词生成时间最多降低至1/4。这些结果表明，自适应、基于学习的请求调度是实现高效、响应迅速的大语言模型服务所缺失的关键层。实现代码发布于 https://anonymous.4open.science/r/vllm_0110-32D8。

0

相关内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

101+阅读 · 2024年4月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

103+阅读 · 2023年8月31日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

219+阅读 · 2023年6月8日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

产业智能官

23+阅读 · 2019年7月3日

MBSE应用于航空产品研发的适航管理

MBSE应用于航空产品研发的适航管理

科技导报

14+阅读 · 2019年4月26日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

具有多处理机任务约束的混合作业车间调度建模与嵌入式仿真

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

混线生产系统典型干扰情境下基于仿真优化的批调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

虚拟化光纤-无线融合宽带接入网中资源调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

柔性工序选择的混合流水车间调度及其离散群智能算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Arxiv

0+阅读 · 2月18日

Floe: Federated Specialization for Real-Time LLM-SLM Inference

Arxiv

0+阅读 · 2月15日

HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling

Arxiv

0+阅读 · 2月15日

OServe: Accelerating LLM Serving via Spatial-Temporal Workload Orchestration

Arxiv

0+阅读 · 2月12日

LLM-CoOpt: A Co-Design and Optimization Framework for Efficient LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月10日

SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training

Arxiv

0+阅读 · 2月1日

MixLM: High-Throughput and Effective LLM Ranking via Text-Embedding Mix-Interaction

Arxiv

0+阅读 · 1月31日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

NestedFP: High-Performance, Memory-Efficient Dual-Precision Floating Point Support for LLMs

Arxiv

0+阅读 · 1月15日

MixServe: An Automatic Distributed Serving System for MoE Models with Hybrid Parallelism Based on Fused Communication Algorithm

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

【AAAI2026】NeSTR：一种用于大型语言模型的神经-符号可溯因框架，用于时间推理

专知会员服务

17+阅读 · 2025年12月10日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

【新书】设计大型语言模型应用：一种面向LLMs的整体方法

专知会员服务

55+阅读 · 2025年3月16日

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

大型语言模型对齐技术综述：RLHF、RLAIF、PPO、DPO 等

专知会员服务

55+阅读 · 2024年7月24日

基于大语言模型的复杂任务自主规划处理框架

基于大语言模型的复杂任务自主规划处理框架

专知会员服务

101+阅读 · 2024年4月12日

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

西工大等最新《大型语言模型机器人技术》综述，详述多模态 GPT-4V 机器人技术

专知会员服务

78+阅读 · 2024年1月10日

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

大模型怎么用知识？哈工大等最新《知识与大型语言模型整合趋势》综述，详述知识编辑与检索增强方法

专知会员服务

98+阅读 · 2023年11月13日

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

不可错过！斯坦福最新《大型语言模型与应用》课程，讲述LLMs技术栈和应用以及评估

专知会员服务

103+阅读 · 2023年10月8日

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

大模型如何革新软件工程？华中科大等最新《面向软件工程的大型语言模型》综述，回顾229篇文献综述LLM+SE技术体系

专知会员服务

103+阅读 · 2023年8月31日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

219+阅读 · 2023年6月8日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

【MBSE】基于模型的系统工程在航空发动机控制设计中的应用

产业智能官

23+阅读 · 2019年7月3日

MBSE应用于航空产品研发的适航管理

MBSE应用于航空产品研发的适航管理

科技导报

14+阅读 · 2019年4月26日

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

用一行tf.data实现数据Shuffle、Batch划分、异步预加载等

专知

21+阅读 · 2019年3月26日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

【泡泡图灵智库】HSfM: 混合运动恢复结构（CVPR）

泡泡机器人SLAM

11+阅读 · 2018年12月13日

相关论文

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Arxiv

0+阅读 · 2月18日

Floe: Federated Specialization for Real-Time LLM-SLM Inference

Arxiv

0+阅读 · 2月15日

HyMem: Hybrid Memory Architecture with Dynamic Retrieval Scheduling

Arxiv

0+阅读 · 2月15日

OServe: Accelerating LLM Serving via Spatial-Temporal Workload Orchestration

Arxiv

0+阅读 · 2月12日

LLM-CoOpt: A Co-Design and Optimization Framework for Efficient LLM Inference on Heterogeneous Platforms

Arxiv

0+阅读 · 2月10日

SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training

Arxiv

0+阅读 · 2月1日

MixLM: High-Throughput and Effective LLM Ranking via Text-Embedding Mix-Interaction

Arxiv

0+阅读 · 1月31日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

NestedFP: High-Performance, Memory-Efficient Dual-Precision Floating Point Support for LLMs

Arxiv

0+阅读 · 1月15日

MixServe: An Automatic Distributed Serving System for MoE Models with Hybrid Parallelism Based on Fused Communication Algorithm

Arxiv

0+阅读 · 1月13日

相关基金

具有多处理机任务约束的混合作业车间调度建模与嵌入式仿真

国家自然科学基金

1+阅读 · 2015年12月31日

大数据背景下面向操作模式的约简算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下支持虚拟集群的跨层协同调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

混线生产系统典型干扰情境下基于仿真优化的批调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

虚拟化光纤-无线融合宽带接入网中资源调度机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

柔性工序选择的混合流水车间调度及其离散群智能算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

配送中心物流作业调度问题的建模与优化

国家自然科学基金

2+阅读 · 2014年12月31日

基于神经网络和强化学习的车辆装配系统中的多载量小车实时调度方法

国家自然科学基金

4+阅读 · 2014年12月31日

基于动态作业负荷的混联制造系统预知维护和机会维修方法

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员