DisCEdge: Distributed Context Management for Large Language Models at the Edge - 专知论文

会员服务 ·

0

上下文 · 边缘 · 系统 · 语言模型 · 存储 ·

DisCEdge: Distributed Context Management for Large Language Models at the Edge

翻译：DisCEdge：面向边缘大语言模型的分布式上下文管理

Mohammadreza Malekabbasi,Minghe Wang,David Bermbach

from arxiv, Accepted for publication in EuroMLSys '26

Deploying Large Language Model (LLM) services at the edge benefits latency-sensitive and privacy-aware applications. However, the stateless nature of LLMs makes managing user context (e.g., sessions, preferences) across geo-distributed edge nodes challenging. Existing solutions, such as client-side context storage, introduce network latency and bandwidth overhead, undermining edge deployment advantages. We propose DisCEdge, a distributed context management system that stores and replicates user context in tokenized form across edge nodes. By maintaining context as token sequences, our system avoids redundant computation and enables efficient data replication. We evaluate an open-source prototype in a realistic edge environment. DisCEdge improves median response times by up to 14.46% and lowers median inter-node synchronization overhead by up to 15% compared to a raw-text-based system. It also reduces client request sizes by a median of 90% compared to client-side context management, while guaranteeing data consistency.

翻译：将大语言模型服务部署至边缘可惠及时延敏感型及隐私感知型应用。然而，LLM的无状态特性使得在地理分布式边缘节点上管理用户上下文（如会话、偏好）面临挑战。现有方案（如客户端侧上下文存储）会引入网络延迟与带宽开销，削弱边缘部署优势。本文提出DisCEdge——一种分布式上下文管理系统，该系统以token化形式在边缘节点间存储并复制用户上下文。通过将上下文维护为token序列，系统避免了冗余计算并支持高效数据复制。我们在真实边缘环境中对开源原型系统进行了评估。与基于原始文本的系统相比，DisCEdge将中位响应时间优化了14.46%，并将中位节点间同步开销降低了15%。同时，相较于客户端侧上下文管理方案，客户端请求规模中位数缩减了90%，且确保数据一致性。

0

相关内容

上下文

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

专知会员服务

38+阅读 · 2024年1月7日

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

专知会员服务

66+阅读 · 2023年11月22日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

简单高效的Bert中文文本分类模型开发和部署

简单高效的Bert中文文本分类模型开发和部署

AINLP

49+阅读 · 2019年6月6日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

Arxiv

0+阅读 · 4月21日

PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding

Arxiv

0+阅读 · 4月10日

ConfusionPrompt: Practical Private Inference for Online Large Language Models

Arxiv

0+阅读 · 4月8日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

Arxiv

0+阅读 · 3月26日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月19日

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Arxiv

0+阅读 · 3月18日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

大语言模型中的事件抽取：方法、模态与未来展望的全面综述

专知会员服务

19+阅读 · 2025年12月23日

综述：面向移动端大语言模型的隐私与安全

综述：面向移动端大语言模型的隐私与安全

专知会员服务

19+阅读 · 2025年9月7日

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

什么是上下文工程？中科院计算所等《大语言模型的上下文工程》综述

专知会员服务

43+阅读 · 2025年7月18日

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

【NeurIPS2024】《AmoebaLLM：构建任意形状的大型语言模型以实现高效和即时部署》

专知会员服务

22+阅读 · 2024年11月21日

边缘大型语言模型综述：设计、执行与应用

边缘大型语言模型综述：设计、执行与应用

专知会员服务

41+阅读 · 2024年10月21日

移动边缘智能与大型语言模型综述

移动边缘智能与大型语言模型综述

专知会员服务

42+阅读 · 2024年7月31日

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

大模型如何处理长上下文？亚马逊等最新《大型语言模型中上下文长度扩展技术》综述

专知会员服务

47+阅读 · 2024年1月31日

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

面向超长上下文，大语言模型如何优化架构，这篇综述一网打尽了

专知会员服务

38+阅读 · 2024年1月7日

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

大模型长上下文核心技术是什么？南大等《长上下文大型语言模型中的Transformer架构》综述

专知会员服务

66+阅读 · 2023年11月22日

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

现在大火的“In-context Learning”是什么？北大等最新《语境学习ICL》综述论文，详述ICL进展、挑战和方向

专知会员服务

41+阅读 · 2023年1月3日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

对话管理的综述论文:最近的进展和挑战，A Survey on Dialog Management

专知

12+阅读 · 2020年5月14日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

生成式对抗网络GAN在语音自然语言处理中的应用，台大李宏毅老师，附247页ppt下载

专知

26+阅读 · 2019年9月21日

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

【泡泡图灵智库】ContextDesc：用跨模态上下文增强的局部描述子

泡泡机器人SLAM

34+阅读 · 2019年9月18日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

简单高效的Bert中文文本分类模型开发和部署

简单高效的Bert中文文本分类模型开发和部署

AINLP

49+阅读 · 2019年6月6日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

多轮对话之对话管理：Dialog Management

多轮对话之对话管理：Dialog Management

PaperWeekly

18+阅读 · 2018年1月15日

相关论文

Unifying Sparse Attention with Hierarchical Memory for Scalable Long-Context LLM Serving

Arxiv

0+阅读 · 4月29日

SpecFed: Accelerating Federated LLM Inference with Speculative Decoding and Compressed Transmission

Arxiv

0+阅读 · 4月28日

SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

Arxiv

0+阅读 · 4月21日

PaceLLM: Brain-Inspired Large Language Models for Long-Context Understanding

Arxiv

0+阅读 · 4月10日

ConfusionPrompt: Practical Private Inference for Online Large Language Models

Arxiv

0+阅读 · 4月8日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月27日

ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization

Arxiv

0+阅读 · 3月26日

A Pipelined Collaborative Speculative Decoding Framework for Efficient Edge-Cloud LLM Inference

Arxiv

0+阅读 · 3月19日

A Unified Language Model for Large Scale Search, Recommendation, and Reasoning

Arxiv

0+阅读 · 3月18日

Towards Efficient Generative Large Language Model Serving: A Survey from Algorithms to Systems

Arxiv

18+阅读 · 2023年12月23日

相关基金

顾及扫描上下文的预测与判决相结合的点云在线分类方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向CELP语音压缩域的通用隐写分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

支持可扩展事务处理的数据库日志机制及其实现

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员