Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes - 专知论文

会员服务 ·

0

解码 · Apple · cache · INTERACT · 推断 ·

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

翻译：苹果MPS解码中的非单调延迟：KV缓存交互与执行范式

Willy Fitra Hendria

from arxiv, 9 pages, 5 figures, 6 tables

Autoregressive inference is typically assumed to scale predictably with decoding length, and key-value (KV) caching is widely regarded as a universally beneficial optimization for accelerating decoding. In this work, we identify unexpected non-monotonic latency behavior in the Apple MPS backend, where latency changes abruptly across nearby decoding configurations. Using transformer models from multiple families (GPT-2, BLOOM, and OPT), we observe latency spikes of up to 21x within specific decoding-budget intervals, followed by recovery at neighboring configurations. Controlled experiments show that these anomalies are not explained by memory pressure or prefill cost, but are instead consistent with backend execution dynamics, while CPU and NVIDIA T4 (CUDA) exhibit smooth monotonic scaling under identical conditions. Our findings highlight the importance of hardware-aware evaluation for autoregressive inference and caution against relying on aggregated decoding-budget benchmarks, as performance can vary discontinuously across nearby configurations.

翻译：自回归推理通常被认为会随解码长度呈现可预测的缩放行为，而键值（KV）缓存被广泛视为加速解码的通用优化手段。在本工作中，我们发现了苹果MPS后端中意想不到的非单调延迟现象——在临近解码配置间延迟出现突变。通过使用多系列变压器模型（GPT-2、BLOOM和OPT），我们在特定解码预算区间内观察到高达21倍的延迟尖峰，而邻近配置却能恢复至正常水平。控制实验表明，这些异常现象既非内存压力或预填充成本所致，反而与后端执行动力学特征高度吻合；而在相同条件下，CPU和NVIDIA T4（CUDA）展现出平滑的单调缩放特性。本研究揭示了硬件感知评估对自回归推理的重要性，并提醒研究者切勿过度依赖聚合型解码预算基准测试，因为性能可能在不同邻近配置间呈现不连续性变化。

0

相关内容

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

专知会员服务

20+阅读 · 2024年3月16日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

16+阅读 · 2021年12月25日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

专知

10+阅读 · 2022年2月25日

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

极市平台

11+阅读 · 2019年9月8日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

钙钛矿光伏器件中异常迟滞现象的扫描探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

极化码串行抵消解码算法误码特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

p38MAPK信号通路调控MMPs在EMP致BBB紧密连接蛋白降解中的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

Arxiv

0+阅读 · 6月13日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Arxiv

0+阅读 · 5月25日

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering

Arxiv

0+阅读 · 5月21日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

Arxiv

0+阅读 · 5月14日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

Arxiv

0+阅读 · 5月7日

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Arxiv

0+阅读 · 4月20日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

2+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

4+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

7+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

4+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

6+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

5+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

3+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

8+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

6+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

9+阅读 · 6月22日

相关VIP内容

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

【NeurIPS2025】基于卷积解码与拒斥式微调的快速流畅扩散语言模型

专知会员服务

12+阅读 · 2025年9月21日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

【NeurIPS2024】将视频掩蔽自编码器扩展到128帧

专知会员服务

13+阅读 · 2024年11月27日

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型

专知会员服务

20+阅读 · 2024年3月16日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

55+阅读 · 2022年11月1日

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

EMNLP 2021 | 学习改写非自回归机器翻译的翻译结果

专知会员服务

16+阅读 · 2021年12月25日

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

【SIGMOD2020-CMU】在内存中搜索树的顺序保持键压缩，Order-Preserving Key Compression for In-Memory Search Trees

专知会员服务

15+阅读 · 2020年3月7日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

【2022新书】掌握Kafka Streams和ksqlDB，436页pdf，构建实时数据系统

专知

10+阅读 · 2022年2月25日

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

换个dataloader函数， COCO提升3mAP ，上海交大MVIG团队提出InstaBoost

极市平台

11+阅读 · 2019年9月8日

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

学界 | 受压缩感知启发，斯坦福 AI 研究院提出新的无监督表示学习框架！

AI科技评论

10+阅读 · 2019年6月18日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

iOS如何区分App和SDK内部crash

iOS如何区分App和SDK内部crash

CocoaChina

11+阅读 · 2019年4月17日

【资源推荐】模型压缩与加速相关资源汇总

【资源推荐】模型压缩与加速相关资源汇总

专知

17+阅读 · 2019年3月27日

一文读懂图像压缩算法

一文读懂图像压缩算法

七月在线实验室

17+阅读 · 2018年5月2日

【干货】深入理解自编码器（附代码实现）

【干货】深入理解自编码器（附代码实现）

专知

136+阅读 · 2018年3月9日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

PolyKV: Heterogeneous Retention and Allocation for KV Cache Compression

Arxiv

0+阅读 · 6月13日

Tangram: Unlocking Non-Uniform KV Cache for Efficient Multi-turn LLM Serving

Arxiv

0+阅读 · 6月4日

Quantized Keys Steal Attention: Bias Correction for KV-Cache Compression in Video Diffusion

Arxiv

0+阅读 · 5月25日

MuKV: Multi-Grained KV Cache Compression for Long Streaming Video Question-Answering

Arxiv

0+阅读 · 5月21日

Adaptive KV Cache Reuse for Fast Long-Context LLM Serving

Arxiv

0+阅读 · 5月20日

Non-Monotonic Latency in Apple MPS Decoding: KV Cache Interactions and Execution Regimes

Arxiv

0+阅读 · 5月14日

KV-Fold: One-Step KV-Cache Recurrence for Long-Context Inference

Arxiv

0+阅读 · 5月12日

When Quantization Is Free: An int4 KV Cache That Outruns fp16 on Apple Silicon

Arxiv

0+阅读 · 5月7日

How Much Cache Does Reasoning Need? Depth-Cache Tradeoffs in KV-Compressed Transformers

Arxiv

0+阅读 · 4月20日

Predictive Multi-Tier Memory Management for KV Cache in Large-Scale GPU Inference

Arxiv

0+阅读 · 4月19日

相关基金

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

钙钛矿光伏器件中异常迟滞现象的扫描探针研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

极化码串行抵消解码算法误码特性研究

国家自然科学基金

0+阅读 · 2015年12月31日

p38MAPK信号通路调控MMPs在EMP致BBB紧密连接蛋白降解中的作用及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

随机延迟微分方程数值解的延迟依赖稳定性及自适应技术

国家自然科学基金

0+阅读 · 2014年12月31日

SHVC质量可伸缩视频编码的快速算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员