Modular Foundation Model Inference at the Edge: Network-Aware Microservice Optimization - 专知论文

会员服务 ·

0

边缘 · 网络感知 · 微服务 · 模型推理 · 鲁棒 ·

Modular Foundation Model Inference at the Edge: Network-Aware Microservice Optimization

翻译：面向边缘的模块化基础模型推理：网络感知的微服务优化

Juan Zhu,Zixin Wang,Shenghui Song,Jun Zhang,Khaled Ben Letaief

from arxiv, 4 figures. Conference

Foundation models (FMs) unlock unprecedented multimodal and multitask intelligence, yet their cloud-centric deployment precludes real-time responsiveness and compromises user privacy. Meanwhile, monolithic execution at the edge remains infeasible under stringent resource limits and uncertain network dynamics. To bridge this gap, we propose a microservice-based FM inference framework that exploits the intrinsic functional asymmetry between heavyweight core services and agile light services. Our two-tier deployment strategy ensures robust Quality of Service (QoS) under resource contention. Specifically, core services are placed statically via a long-term network-aware integer program with sparsity constraints to form a fault-tolerant backbone. On the other hand, light services are orchestrated dynamically by a low-complexity online controller that integrates effective capacity theory with Lyapunov optimization, providing probabilistic latency guarantees under real-time workload fluctuations. Simulations demonstrate that our framework achieves over 84% average on-time task completion with moderate deployment costs and maintains strong robustness as the system load scales.

翻译：基础模型（FMs）开启了前所未有的多模态与多任务智能，但其以云为中心的部署方式阻碍了实时响应能力并损害了用户隐私。同时，在严格的资源限制和不确定的网络动态下，在边缘进行单体式执行仍然不可行。为弥合这一差距，我们提出了一种基于微服务的基础模型推理框架，该框架利用了重型核心服务与敏捷轻型服务之间固有的功能不对称性。我们的双层部署策略确保了在资源争用下鲁棒的服务质量（QoS）。具体而言，核心服务通过一个具有稀疏性约束的长期网络感知整数规划进行静态部署，以形成一个容错的骨干网络。另一方面，轻型服务由一个低复杂度的在线控制器动态编排，该控制器将有效容量理论与李雅普诺夫优化相结合，在实时工作负载波动下提供概率性延迟保证。仿真结果表明，我们的框架以适中的部署成本实现了超过84%的平均准时任务完成率，并在系统负载扩展时保持了强大的鲁棒性。

0

相关内容

运用小型语言模型解锁战术边缘人工智能优势

运用小型语言模型解锁战术边缘人工智能优势

专知会员服务

31+阅读 · 2025年9月7日

【CMU博士论文】利用信息论工具进行基础模型分析

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

《面向边缘智能应用的AI模型优化技术研究》139页

《面向边缘智能应用的AI模型优化技术研究》139页

专知会员服务

43+阅读 · 2025年8月12日

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

21+阅读 · 2025年7月23日

面向边缘智能的大模型研究进展

面向边缘智能的大模型研究进展

专知会员服务

40+阅读 · 2025年3月10日

《面向基础模型的高效参数微调》综述

《面向基础模型的高效参数微调》综述

专知会员服务

34+阅读 · 2025年1月24日

基础模型驱动的智能体服务部署：综述

基础模型驱动的智能体服务部署：综述

专知会员服务

53+阅读 · 2024年12月19日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

专知会员服务

70+阅读 · 2024年1月8日

【斯坦福课程】基础模型进展

【斯坦福课程】基础模型进展

专知会员服务

52+阅读 · 2023年1月15日

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【边缘计算】工业互联网正确打开方式系列（四）：边缘计算

【边缘计算】工业互联网正确打开方式系列（四）：边缘计算

产业智能官

19+阅读 · 2018年8月31日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

推荐中的序列化建模：Session-based neural recommendation

推荐中的序列化建模：Session-based neural recommendation

机器学习研究会

18+阅读 · 2017年11月5日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Synergizing Foundation Models and Federated Learning: A Survey

Arxiv

0+阅读 · 2月16日

Prompt-Driven Low-Altitude Edge Intelligence: Modular Agents and Generative Reasoning

Arxiv

0+阅读 · 2月15日

Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks

Arxiv

0+阅读 · 2月6日

Modular Safety Guardrails Are Necessary for Foundation-Model-Enabled Robots in the Real World

Arxiv

0+阅读 · 2月3日

Towards Building Non-Fine-Tunable Foundation Models

Arxiv

0+阅读 · 1月31日

Agentic Design Patterns: A System-Theoretic Framework

Arxiv

0+阅读 · 1月27日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 1月26日

Edge-Aware Image Manipulation via Diffusion Models with a Novel Structure-Preservation Loss

Arxiv

0+阅读 · 1月23日

Communication-Efficient Multi-Modal Edge Inference via Uncertainty-Aware Distributed Learning

Arxiv

0+阅读 · 1月21日

Vision-Language Models on the Edge for Real-Time Robotic Perception

Arxiv

0+阅读 · 1月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

运用小型语言模型解锁战术边缘人工智能优势

运用小型语言模型解锁战术边缘人工智能优势

专知会员服务

31+阅读 · 2025年9月7日

【CMU博士论文】利用信息论工具进行基础模型分析

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

《面向边缘智能应用的AI模型优化技术研究》139页

《面向边缘智能应用的AI模型优化技术研究》139页

专知会员服务

43+阅读 · 2025年8月12日

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

21+阅读 · 2025年7月23日

面向边缘智能的大模型研究进展

面向边缘智能的大模型研究进展

专知会员服务

40+阅读 · 2025年3月10日

《面向基础模型的高效参数微调》综述

《面向基础模型的高效参数微调》综述

专知会员服务

34+阅读 · 2025年1月24日

基础模型驱动的智能体服务部署：综述

基础模型驱动的智能体服务部署：综述

专知会员服务

53+阅读 · 2024年12月19日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

大模型与医疗如何结合？上交大等最新《计算医疗健康中的以数据为中心的基础模型》综述

专知会员服务

70+阅读 · 2024年1月8日

【斯坦福课程】基础模型进展

【斯坦福课程】基础模型进展

专知会员服务

52+阅读 · 2023年1月15日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

《网络化传感器集成架构：未来多传感器多平台运行的赋能器》

专知

39+阅读 · 2023年4月11日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

【边缘计算】工业互联网正确打开方式系列（四）：边缘计算

【边缘计算】工业互联网正确打开方式系列（四）：边缘计算

产业智能官

19+阅读 · 2018年8月31日

面向大规模在线学习的社会化推荐模型与方法

面向大规模在线学习的社会化推荐模型与方法

MOOC

10+阅读 · 2018年6月8日

展望：模型驱动的深度学习

展望：模型驱动的深度学习

人工智能学家

12+阅读 · 2018年1月23日

推荐中的序列化建模：Session-based neural recommendation

推荐中的序列化建模：Session-based neural recommendation

机器学习研究会

18+阅读 · 2017年11月5日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

Synergizing Foundation Models and Federated Learning: A Survey

Arxiv

0+阅读 · 2月16日

Prompt-Driven Low-Altitude Edge Intelligence: Modular Agents and Generative Reasoning

Arxiv

0+阅读 · 2月15日

Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks

Arxiv

0+阅读 · 2月6日

Modular Safety Guardrails Are Necessary for Foundation-Model-Enabled Robots in the Real World

Arxiv

0+阅读 · 2月3日

Towards Building Non-Fine-Tunable Foundation Models

Arxiv

0+阅读 · 1月31日

Agentic Design Patterns: A System-Theoretic Framework

Arxiv

0+阅读 · 1月27日

SLIDE: Simultaneous Model Downloading and Inference at the Wireless Network Edge

Arxiv

0+阅读 · 1月26日

Edge-Aware Image Manipulation via Diffusion Models with a Novel Structure-Preservation Loss

Arxiv

0+阅读 · 1月23日

Communication-Efficient Multi-Modal Edge Inference via Uncertainty-Aware Distributed Learning

Arxiv

0+阅读 · 1月21日

Vision-Language Models on the Edge for Real-Time Robotic Perception

Arxiv

0+阅读 · 1月21日

相关基金

面向隐私保护的地理社交网络个性化推荐方法研究

国家自然科学基金

2+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

云市场下云服务商与终端用户间利益均衡的优化模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微网安全风险评估研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员