PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection - 专知论文

会员服务 ·

0

上下文 · 存储 · 长上下文 · 存储墙 · 相似度 ·

PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection

翻译：PRISM：通过O(1)光子块选择突破长上下文LLM推理中的O(n)存储墙

Hyoseok Park,Yeonsang Park

from arxiv, 28 pages, 27 figures, 15 tables, including supplementary material. Code available at https://github.com/hyoseokp/PRISM

Long-context LLM inference is bottlenecked not by compute but by the O(n) memory bandwidth cost of scanning the KV cache at every decode step -- a wall that no amount of arithmetic scaling can break. Recent photonic accelerators have demonstrated impressive throughput for dense attention computation; however, these approaches inherit the same O(n) memory scaling as electronic attention when applied to long contexts. We observe that the real leverage point is the coarse block-selection step: a memory-bound similarity search that determines which KV blocks to fetch. We identify, for the first time, that this task is structurally matched to the photonic broadcast-and-weight paradigm -- the query fans out to all candidates via passive splitting, signatures are quasi-static (matching electro-optic MRR programming), and only rank order matters (relaxing precision to 4-6 bits). Crucially, the photonic advantage grows with context length: as N increases, the electronic scan cost rises linearly while the photonic evaluation remains O(1). We instantiate this insight in PRISM (Photonic Ranking via Inner-product Similarity with Microring weights), a thin-film lithium niobate (TFLN) similarity engine. Hardware-impaired needle-in-a-haystack evaluation on Qwen2.5-7B confirms 100% accuracy from 4K through 64K tokens at k=32, with 16x traffic reduction at 64K context. PRISM achieves a four-order-of-magnitude energy advantage over GPU baselines at practical context lengths (n >= 4K).

翻译：长上下文LLM推理的瓶颈不在于计算，而在于每次解码步扫描KV缓存时O(n)的存储带宽开销——这是一道任何算术扩展都无法突破的“存储墙”。近期光子加速器在密集注意力计算中展现了惊人的吞吐量；然而，这些方法在应用于长上下文时，继承了与电子注意力相同的O(n)存储扩展特性。我们发现，真正的杠杆点在于粗粒度块选择步骤：一个决定加载哪些KV块的存储受限相似度搜索。我们首次识别出，该任务在结构上与光子广播-加权范式匹配——查询通过无源分路扇出至所有候选块，签名准静态（匹配电光微环谐振器编程），且仅需排名顺序（精度可放宽至4-6比特）。关键在于，光子优势随上下文长度增长：当N增大时，电子扫描成本线性上升，而光子评估保持O(1)。我们基于这一洞察实现了PRISM（基于微环权重的内积相似度光子排名引擎），一种薄膜铌酸锂（TFLN）相似度处理引擎。在Qwen2.5-7B上进行的硬件受损“大海捞针”评估表明，从4K到64K token且k=32时，准确率达100%，在64K上下文下流量降低16倍。在实用上下文长度（n≥4K）下，PRISM相较GPU基线实现了四个数量级的能效优势。

0

相关内容

上下文

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

专知会员服务

8+阅读 · 5月17日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

【ICML2021】学会用长序列记忆来排练

专知会员服务

16+阅读 · 2021年6月4日

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

一文详解LSTM网络

一文详解LSTM网络

论智

18+阅读 · 2018年5月2日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

如何在Python中用LSTM网络进行时间序列预测

如何在Python中用LSTM网络进行时间序列预测

AI100

17+阅读 · 2017年8月5日

带宽可变的硅基模式-波长选择光开关机理及实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于光学超晶格实现光纤通讯和量子存储波段的多色连续变量纠缠光场

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

高速冲击破碎问题的Hamilton粒子重构单元方法

国家自然科学基金

0+阅读 · 2015年12月31日

适于阻变存储器无源交叉阵列的双向选通管及其物理机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

连续变量量子密钥分发协议后选择技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

二维和三维量子图像的存储、压缩与分割技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于光学扫描全息的多图像加密原理及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

Arxiv

0+阅读 · 4月29日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference

Arxiv

0+阅读 · 4月27日

Amoeba: Runtime Tensor Parallel Transformation for LLM Inference Services

Arxiv

0+阅读 · 4月22日

MemExplorer: Navigating the Heterogeneous Memory Design Space for Agentic Inference NPUs

Arxiv

0+阅读 · 4月17日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

Comparative Characterization of KV Cache Management Strategies for LLM Inference

Arxiv

0+阅读 · 4月6日

Mapping Space Exploration for Multi-Chiplet Accelerators Targeting LLM Inference Serving Workloads

Arxiv

0+阅读 · 4月1日

PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection

Arxiv

0+阅读 · 3月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

[ICML 2026] 训练-推理一致的片段级执行：长上下文LLM的高效可扩展方法

专知会员服务

8+阅读 · 5月17日

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

【ICML2026】面向长上下文大语言模型的训练-推理一致性分段执行

专知会员服务

9+阅读 · 5月14日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

9+阅读 · 2025年10月15日

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

LaCache：用于高效长上下文建模的大语言模型梯状KV缓存机制

专知会员服务

11+阅读 · 2025年7月23日

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

【ICML2025】大语言模型中有效长上下文建模的长短对齐方法

专知会员服务

13+阅读 · 2025年6月16日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

TransMLA：多头潜在注意力（MLA）即为所需

TransMLA：多头潜在注意力（MLA）即为所需

专知会员服务

23+阅读 · 2025年2月13日

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

如何构建o1模型推理能力？清华北大等提出LLaVA-o1: 让视觉语言模型逐步推理

专知会员服务

30+阅读 · 2024年11月19日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

【ICML2021】学会用长序列记忆来排练

专知会员服务

16+阅读 · 2021年6月4日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

【ChatGPT系列报告】ChatGPT：存算一体，算力的下一极，47页ppt

专知

14+阅读 · 2023年4月6日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

注意力机制可解释吗？这篇ACL 2019论文说……

注意力机制可解释吗？这篇ACL 2019论文说……

机器之心

11+阅读 · 2019年6月16日

长文本表示学习概述

长文本表示学习概述

云栖社区

15+阅读 · 2019年5月9日

一文详解LSTM网络

一文详解LSTM网络

论智

18+阅读 · 2018年5月2日

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

【推荐】用TensorFlow实现LSTM社交对话股市情感分析

机器学习研究会

11+阅读 · 2018年1月14日

干货｜从LSTM到Seq2Seq

干货｜从LSTM到Seq2Seq

全球人工智能

15+阅读 · 2018年1月9日

如何在Python中用LSTM网络进行时间序列预测

如何在Python中用LSTM网络进行时间序列预测

AI100

17+阅读 · 2017年8月5日

相关论文

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

DUAL-BLADE: Dual-Path NVMe-Direct KV-Cache Offloading for Edge LLM Inference

Arxiv

0+阅读 · 4月29日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

DepthKV: Layer-Dependent KV Cache Pruning for Long-Context LLM Inference

Arxiv

0+阅读 · 4月27日

Amoeba: Runtime Tensor Parallel Transformation for LLM Inference Services

Arxiv

0+阅读 · 4月22日

MemExplorer: Navigating the Heterogeneous Memory Design Space for Agentic Inference NPUs

Arxiv

0+阅读 · 4月17日

Combating the Memory Walls: Optimization Pathways for Long-Context Agentic LLM Inference

Arxiv

0+阅读 · 4月12日

Comparative Characterization of KV Cache Management Strategies for LLM Inference

Arxiv

0+阅读 · 4月6日

Mapping Space Exploration for Multi-Chiplet Accelerators Targeting LLM Inference Serving Workloads

Arxiv

0+阅读 · 4月1日

PRISM: Breaking the O(n) Memory Wall in Long-Context LLM Inference via O(1) Photonic Block Selection

Arxiv

0+阅读 · 3月23日

相关基金

带宽可变的硅基模式-波长选择光开关机理及实现

国家自然科学基金

0+阅读 · 2015年12月31日

基于光学超晶格实现光纤通讯和量子存储波段的多色连续变量纠缠光场

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向10Tb/in2级磁存储系统的二维LDPC码设计

国家自然科学基金

0+阅读 · 2015年12月31日

高速冲击破碎问题的Hamilton粒子重构单元方法

国家自然科学基金

0+阅读 · 2015年12月31日

适于阻变存储器无源交叉阵列的双向选通管及其物理机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

连续变量量子密钥分发协议后选择技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

二维和三维量子图像的存储、压缩与分割技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于光学扫描全息的多图像加密原理及方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员