Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes - 专知论文

会员服务 ·

0

解码 · cache · INTERACT · Apple · 推断 ·

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

翻译：Apple MPS解码中的非单调延迟：KV缓存交互与执行模式

Willy Fitra Hendria

from arxiv, 9 pages, 5 figures, 6 tables

Autoregressive inference is typically assumed to scale predictably with decoding length, with latency increasing smoothly as generated sequence length grows. In this work, we identify unexpected non-monotonic latency behavior in the Apple MPS backend, where latency changes abruptly across nearby decoding configurations during transformer decoding. Using multiple model families (GPT-2, BLOOM, and OPT), we observe latency spikes of up to 21x within specific decoding-budget intervals, followed by recovery at neighboring configurations. Controlled experiments show that these anomalies originate primarily during the decode phase rather than prefill, are not explained by memory pressure alone, and remain absent on CPU and NVIDIA CUDA backends under identical conditions. We further show that key-value (KV) cache interacts strongly with these pathological execution regimes: KV caching remains beneficial overall, but its practical speedup collapses sharply within anomalous configurations, while cache-disabled decoding still exhibits residual non-monotonic behavior. These findings suggest that autoregressive decoding on MPS enters discrete execution regimes that are not captured by coarse-grained benchmarking, highlighting the importance of hardware-aware evaluation for long-context inference.

翻译：自回归推理通常被认为随解码长度呈现可预测的缩放规律，即延迟随生成序列长度增长而平滑增加。本研究发现Apple MPS后端存在意外的非单调延迟行为——在Transformer解码过程中，延迟在邻近解码配置间发生突变。使用多种模型族（GPT-2、BLOOM、OPT），我们在特定解码预算区间内观测到高达21倍的延迟峰值，并在相邻配置中恢复。控制实验表明：这些异常主要源于解码阶段而非预填充阶段，无法仅用内存压力解释，且在相同条件下CPU和NVIDIA CUDA后端均未出现。进一步研究发现，键值（KV）缓存与这些病态执行模式存在强交互：KV缓存整体上仍具性能优势，但其实际加速比在异常配置中急剧坍塌，而禁用缓存的解码仍表现出残余的非单调行为。这些发现表明，MPS上的自回归解码会进入离散执行模式，该模式无法通过粗粒度基准测试捕获，凸显了硬件感知评估对长上下文推理的重要性。

0

相关内容

面向高效大语言模型服务的系统感知 KV Cache 优化综述

面向高效大语言模型服务的系统感知 KV Cache 优化综述

专知会员服务

11+阅读 · 7月12日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

专知会员服务

20+阅读 · 2024年3月16日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

17+阅读 · 2021年12月25日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

使用 Keras Tuner 调节超参数

使用 Keras Tuner 调节超参数

TensorFlow

15+阅读 · 2020年2月6日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

含执行器死区/滞环非线性系统的模糊自适应容错控制

国家自然科学基金

0+阅读 · 2015年12月31日

带跳随机时滞微分方程解的高效快速算法设计及其在美式未定权益定价中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

钙钛矿光伏器件中异常迟滞现象的扫描探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟容忍网络中自适应社会感知路由研究

国家自然科学基金

0+阅读 · 2015年12月31日

极化码串行抵消解码算法误码特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Arxiv

0+阅读 · 6月12日

K-Forcing: Joint Next-K-Token Decoding via Push-Forward Language Modeling

Arxiv

0+阅读 · 6月10日

Whisfusion: Parallel ASR Decoding with Masked Diffusion

Arxiv

0+阅读 · 6月9日

SwiftFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs

Arxiv

0+阅读 · 5月22日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

An Interpretable Latency Model for Speculative Decoding in LLM Serving

Arxiv

0+阅读 · 5月14日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

Arxiv

0+阅读 · 5月9日

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

Arxiv

0+阅读 · 5月7日

VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

面向高效大语言模型服务的系统感知 KV Cache 优化综述

面向高效大语言模型服务的系统感知 KV Cache 优化综述

专知会员服务

11+阅读 · 7月12日

【伯克利博士论文】基于投机性解码的高效大语言模型系统

【伯克利博士论文】基于投机性解码的高效大语言模型系统

专知会员服务

16+阅读 · 1月4日

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

专知会员服务

20+阅读 · 2024年3月16日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

17+阅读 · 2021年12月25日

清华大学刘云新获MobiSys 2021 最佳论文奖：精准预测深度学习模型在边缘设备上的推理延迟

专知会员服务

33+阅读 · 2021年7月17日

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

【NLP模型压缩方法综述】《A Survey of Methods for Model Compression in NLP》by Madison May

专知会员服务

43+阅读 · 2020年4月22日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

使用 Keras Tuner 调节超参数

使用 Keras Tuner 调节超参数

TensorFlow

15+阅读 · 2020年2月6日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

谷歌NIPS论文Transformer模型解读：只要Attention就够了

谷歌NIPS论文Transformer模型解读：只要Attention就够了

AI100

14+阅读 · 2019年9月9日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

【干货】深入理解变分自编码器

【干货】深入理解变分自编码器

专知

21+阅读 · 2018年3月22日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Fast Autoregressive Video Diffusion and World Models with Temporal Cache Compression and Sparse Attention

Arxiv

0+阅读 · 6月12日

K-Forcing: Joint Next-K-Token Decoding via Push-Forward Language Modeling

Arxiv

0+阅读 · 6月10日

Whisfusion: Parallel ASR Decoding with Masked Diffusion

Arxiv

0+阅读 · 6月9日

SwiftFusion: Scalable Sequence Parallelism for Distributed Inference of Diffusion Transformers on GPUs

Arxiv

0+阅读 · 5月22日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

An Interpretable Latency Model for Speculative Decoding in LLM Serving

Arxiv

0+阅读 · 5月14日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

Arxiv

0+阅读 · 5月9日

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

Arxiv

0+阅读 · 5月7日

VVS: Accelerating Speculative Decoding for Visual Autoregressive Generation via Partial Verification Skipping

Arxiv

0+阅读 · 5月6日

相关基金

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

含执行器死区/滞环非线性系统的模糊自适应容错控制

国家自然科学基金

0+阅读 · 2015年12月31日

带跳随机时滞微分方程解的高效快速算法设计及其在美式未定权益定价中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

钙钛矿光伏器件中异常迟滞现象的扫描探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟容忍网络中自适应社会感知路由研究

国家自然科学基金

0+阅读 · 2015年12月31日

极化码串行抵消解码算法误码特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员