ModeSwitch-LLM: A Lightweight Phase-Aware Controller for Cross-Mode LLM Inference on a Single GPU - 专知论文

会员服务 ·

0

控制器 · 推断 · GPU · 均值 · MoDELS ·

ModeSwitch-LLM: A Lightweight Phase-Aware Controller for Cross-Mode LLM Inference on a Single GPU

翻译：暂无翻译

Aman Sunesh,Ali Alshehhi,Hivansh Dhakne

from arxiv, 10 pages main text, 11 pages including references, 5 figures, 3 tables. Preprint

ModeSwitch-LLM is a lightweight request-boundary controller for improving single-GPU large language model inference efficiency by routing each request to an appropriate fixed inference mode. Instead of relying on one static serving configuration, the system selects among FP16, quantized modes, speculative decoding, and hybrid modes such as GPTQ plus prefix caching and INT8 plus continuous batching using cheap workload-level features. We evaluate ModeSwitch-LLM on Meta-Llama-3.1-8B-Instruct served on a single NVIDIA A100 GPU. On deployment-style synthetic workloads, the online controller achieves a 2.10x mean latency speedup over FP16 and a 0.48x mean energy ratio, corresponding to 51.7% lower energy per token. On automatic benchmarks used as a quality gate, accuracy remains close to FP16 with a mean delta of +0.17 percentage points. We also evaluate lightweight learned routers, but find that they do not clearly outperform the rule-based controller because they add routing overhead and more often select modes that violate quality, energy, or memory constraints. These results show that simple request-aware routing can recover substantial efficiency from existing inference modes without retraining the model or changing its architecture.

翻译：暂无翻译

0

相关内容

控制器

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

12+阅读 · 5月31日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

专知会员服务

100+阅读 · 2024年6月15日

揭秘NVIDIA大模型推理框架：TensorRT-LLM

揭秘NVIDIA大模型推理框架：TensorRT-LLM

专知会员服务

56+阅读 · 2024年2月1日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

LightGCN推荐模型代码解读

LightGCN推荐模型代码解读

机器学习与推荐算法

23+阅读 · 2021年12月23日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM（ICRA）

【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM（ICRA）

泡泡机器人SLAM

10+阅读 · 2019年7月12日

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

泡泡机器人SLAM

18+阅读 · 2019年4月30日

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

泡泡机器人SLAM

17+阅读 · 2019年4月30日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

带宽可变的硅基模式-波长选择光开关机理及实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于REC技术的低成本可调谐窄线宽DFB激光器阵列芯片研究

国家自然科学基金

0+阅读 · 2015年12月31日

InP基单片集成少模光发射芯片的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大模场面积抗弯曲单模掺铥光子晶体光纤的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

径向偏振、锁模光纤激光器研究

国家自然科学基金

0+阅读 · 2014年12月31日

40纳米工艺MOSFET器件毫米波建模和低功耗电路设计

国家自然科学基金

0+阅读 · 2014年12月31日

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Arxiv

0+阅读 · 6月18日

The Correctness Illusion in LLM-Generated GPU Kernels

Arxiv

0+阅读 · 6月18日

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

Arxiv

0+阅读 · 6月17日

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

Arxiv

0+阅读 · 6月17日

ShuntServe: Cost-Efficient LLM Serving on Heterogeneous Spot GPU Clusters

Arxiv

0+阅读 · 6月17日

Interpretable and Verifiable Hardware Generation with LLM-Driven Stepwise Refinement

Arxiv

0+阅读 · 6月16日

Decoupled Intelligence: A Multi-Agent LLM Framework for Controllable Traffic Scenario Generation in SUMO

Arxiv

0+阅读 · 5月26日

WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving

Arxiv

0+阅读 · 5月21日

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive

Arxiv

0+阅读 · 5月17日

Visual Fingerprints for LLM Generation Comparison

Arxiv

0+阅读 · 5月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 今天15:26

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

0+阅读 · 今天15:19

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

4+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

5+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

12+阅读 · 5月31日

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

大语言模型智能体（LLM Agents）工具调用的演进：从单工具调用到多工具协同编排

专知会员服务

29+阅读 · 4月6日

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

从静态模板到动态运行时图：大语言模型智能体（LLM Agents）工作流优化综述

专知会员服务

23+阅读 · 3月30日

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

【EMNLP2025】ReCode：基于细粒度检索增强生成的LLM代码修复方法

专知会员服务

10+阅读 · 2025年9月3日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

【新书】构建LLM应用：使用大型语言模型创建智能应用和代理，312页pdf

专知会员服务

100+阅读 · 2024年6月15日

揭秘NVIDIA大模型推理框架：TensorRT-LLM

揭秘NVIDIA大模型推理框架：TensorRT-LLM

专知会员服务

56+阅读 · 2024年2月1日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

WSDM 2024| LLMs助力图学习？基于大模型的图数据增强

专知会员服务

27+阅读 · 2023年11月19日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

LightGCN推荐模型代码解读

LightGCN推荐模型代码解读

机器学习与推荐算法

23+阅读 · 2021年12月23日

盘点来自工业界的GPU共享方案

盘点来自工业界的GPU共享方案

计算机视觉life

12+阅读 · 2021年9月2日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM（ICRA）

【泡泡图灵智库】实时单目物体-模型感知稀疏SLAM（ICRA）

泡泡机器人SLAM

10+阅读 · 2019年7月12日

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

【泡泡图灵智库】基于几何约束的单目视觉里程计尺度恢复（ICRA）

泡泡机器人SLAM

18+阅读 · 2019年4月30日

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

基于 Carsim 2016 和 Simulink的无人车运动控制联合仿真（四）

泡泡机器人SLAM

17+阅读 · 2019年4月30日

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

【泡泡图灵智库】直接法视觉SLAM的光照变化鲁棒性（ICRA-33）

泡泡机器人SLAM

24+阅读 · 2018年9月18日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

相关论文

AutoPass: Evidence-Guided LLM Agents for Compiler Performance Tuning

Arxiv

0+阅读 · 6月18日

The Correctness Illusion in LLM-Generated GPU Kernels

Arxiv

0+阅读 · 6月18日

ReMP: Low-Downtime Runtime Model-Parallelism Reconfiguration for LLM Serving

Arxiv

0+阅读 · 6月17日

Understanding and Mitigating Prompt Leaking Attacks in Real-World LLM-Based Applications

Arxiv

0+阅读 · 6月17日

ShuntServe: Cost-Efficient LLM Serving on Heterogeneous Spot GPU Clusters

Arxiv

0+阅读 · 6月17日

Interpretable and Verifiable Hardware Generation with LLM-Driven Stepwise Refinement

Arxiv

0+阅读 · 6月16日

Decoupled Intelligence: A Multi-Agent LLM Framework for Controllable Traffic Scenario Generation in SUMO

Arxiv

0+阅读 · 5月26日

WarmServe: Enabling One-for-Many GPU Prewarming for Multi-LLM Serving

Arxiv

0+阅读 · 5月21日

AutoLLMResearch: Training Research Agents for Automating LLM Experiment Configuration - Learning from Cheap, Optimizing Expensive

Arxiv

0+阅读 · 5月17日

Visual Fingerprints for LLM Generation Comparison

Arxiv

0+阅读 · 5月7日

相关基金

带宽可变的硅基模式-波长选择光开关机理及实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于REC技术的低成本可调谐窄线宽DFB激光器阵列芯片研究

国家自然科学基金

0+阅读 · 2015年12月31日

InP基单片集成少模光发射芯片的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向数万处理器的有限元线性方程组与模态多级算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

高采样率、高量化分辨率一体化全光模数转换关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

大模场面积抗弯曲单模掺铥光子晶体光纤的研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于分布式∑/△与扩展量化的红外焦平面阵列像素级/列级混合式模数转换方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

径向偏振、锁模光纤激光器研究

国家自然科学基金

0+阅读 · 2014年12月31日

40纳米工艺MOSFET器件毫米波建模和低功耗电路设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员