Mitigating GIL Bottlenecks in Edge AI Systems - 专知论文

会员服务 ·

0

边缘 · AI · 边缘AI · 系统 · AI系统 ·

Mitigating GIL Bottlenecks in Edge AI Systems

翻译：缓解边缘AI系统中的GIL瓶颈

Mridankan Mandal,Smit Sanjay Shende

Deploying Python based AI agents on resource-constrained edge devices presents a runtime optimization challenge: high thread counts are needed to mask I/O latency, yet Python's Global Interpreter Lock (GIL) serializes execution. We demonstrate that naive thread-pool scaling causes a "saturation cliff": >= 20% throughput degradation at overprovisioned thread counts (N >= 512) on edge-representative configurations. We present a lightweight profiling tool and adaptive runtime system using a Blocking Ratio metric (beta) that distinguishes genuine I/O wait from GIL contention. Our library-based solution achieves 96.5% of optimal performance without manual tuning, outperforming multiprocessing (limited by ~8x memory overhead on devices with 512 MB-2 GB RAM) and asyncio (blocked by CPU-bound phases). Evaluation across seven edge AI workload profiles, including real ML inference with ONNX Runtime MobileNetV2, demonstrates 93.9% average efficiency. Comparative experiments with Python 3.13t (free threading) show that while GIL elimination enables ~4x throughput on multi-core edge devices, the saturation cliff persists on single-core devices, validating our beta metric for both GIL and no-GIL environments. This provides practical optimization for edge AI systems.

翻译：在资源受限的边缘设备上部署基于Python的AI代理面临运行时优化挑战：需要高线程数以掩盖I/O延迟，但Python的全局解释器锁（GIL）会串行化执行。我们证明，简单的线程池扩缩会导致"饱和悬崖"：在具有边缘代表性配置的超量线程数（N ≥ 512）下，吞吐量下降≥20%。我们提出了一种轻量级分析工具和自适应运行时系统，使用阻塞率指标（β）来区分真实的I/O等待与GIL争用。我们基于库的解决方案无需手动调优即可实现96.5%的最佳性能，优于多进程方案（受限于512 MB-2 GB内存设备上约8倍的内存开销）和asyncio（受CPU密集型阶段阻塞）。通过对七种边缘AI工作负载配置（包括使用ONNX Runtime MobileNetV2的真实ML推理）的评估，平均效率达到93.9%。与Python 3.13t（自由线程）的对比实验表明，虽然GIL消除能在多核边缘设备上实现约4倍吞吐量，但在单核设备上饱和悬崖依然存在，这验证了我们的β指标在GIL和无GIL环境中的普适性。这为边缘AI系统提供了实用的优化方案。

0

相关内容

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

20+阅读 · 2025年7月23日

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

36+阅读 · 2025年4月12日

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

专知会员服务

51+阅读 · 2024年4月18日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

【ChatGPT系列报告】边缘AI：大语言模型的终端部署，推动新一轮终端需求，25页pdf

【ChatGPT系列报告】边缘AI：大语言模型的终端部署，推动新一轮终端需求，25页pdf

专知会员服务

89+阅读 · 2023年6月1日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

54+阅读 · 2022年11月1日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

边缘机器学习，21页ppt

边缘机器学习，21页ppt

专知会员服务

84+阅读 · 2021年6月21日

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

专知会员服务

96+阅读 · 2019年11月12日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

19+阅读 · 2019年11月5日

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【附源码】TensorFlow动态图（Eager模式）的那些神坑

【附源码】TensorFlow动态图（Eager模式）的那些神坑

专知

19+阅读 · 2018年10月12日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

执行器饱和系统的新型增益调度控制理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Arxiv

0+阅读 · 2月18日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Cooperative Edge Caching with Large Language Model in Wireless Networks

Arxiv

0+阅读 · 2月10日

Quantifying Edge Intelligence: Inference-Time Scaling Formalisms for Heterogeneous Computing

Arxiv

0+阅读 · 2月9日

Scalable Explainability-as-a-Service (XaaS) for Edge AI Systems

Arxiv

0+阅读 · 2月4日

Energy-Efficient Neuromorphic Computing for Edge AI: A Framework with Adaptive Spiking Neural Networks and Hardware-Aware Optimization

Arxiv

0+阅读 · 2月2日

Generative Intent Prediction Agentic AI empowered Edge Service Function Chain Orchestration

Arxiv

0+阅读 · 1月20日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

3+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

3+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

7+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

8+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

11+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

6+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

6+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

8+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

6+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

10+阅读 · 5月29日

相关VIP内容

基于脉冲神经网络的边缘智能

基于脉冲神经网络的边缘智能

专知会员服务

20+阅读 · 2025年7月23日

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

36+阅读 · 2025年4月12日

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

专知会员服务

51+阅读 · 2024年4月18日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

【ChatGPT系列报告】边缘AI：大语言模型的终端部署，推动新一轮终端需求，25页pdf

【ChatGPT系列报告】边缘AI：大语言模型的终端部署，推动新一轮终端需求，25页pdf

专知会员服务

89+阅读 · 2023年6月1日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

54+阅读 · 2022年11月1日

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

边缘设备如何用AI？MIT韩松等最新《移动设备深度学习：方法系统应用》综述，50页pdf368篇文献全面阐述边缘深度学习技术

专知会员服务

113+阅读 · 2022年5月6日

边缘机器学习，21页ppt

边缘机器学习，21页ppt

专知会员服务

84+阅读 · 2021年6月21日

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

【中科院计算所】边缘计算与工具综述论文，A Survey on Edge Computing Systems and Tools

专知会员服务

96+阅读 · 2019年11月12日

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

【O'Reilly AI Conference 2019】在边缘部署机器学习模型（Deploying machine learning models on the edge），Yan Zhang (Microsoft), Mathew Salvaris (Microsoft)

专知会员服务

19+阅读 · 2019年11月5日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

美以伊战争：首次人工智能战争——军事自主性困境

BES：让语言模型通过双向进化搜索自我改进

以色列-美国-伊朗战争中的无人机：关键要点

相关资讯

《“边缘计算+”技术白皮书》，82页pdf

《“边缘计算+”技术白皮书》，82页pdf

专知

11+阅读 · 2022年8月28日

可解释AI(XAI)工具集—DrWhy

可解释AI(XAI)工具集—DrWhy

专知

25+阅读 · 2019年6月4日

【边缘计算】边缘计算面临的问题

【边缘计算】边缘计算面临的问题

产业智能官

17+阅读 · 2019年5月31日

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

一行TensorFlow/Keras代码解决真实场景中数据不平衡(imbalanced)问题

专知

78+阅读 · 2019年5月31日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

【附源码】TensorFlow动态图（Eager模式）的那些神坑

【附源码】TensorFlow动态图（Eager模式）的那些神坑

专知

19+阅读 · 2018年10月12日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

相关论文

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

FlowPrefill: Decoupling Preemption from Prefill Scheduling Granularity to Mitigate Head-of-Line Blocking in LLM Serving

Arxiv

0+阅读 · 2月18日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Cooperative Edge Caching with Large Language Model in Wireless Networks

Arxiv

0+阅读 · 2月10日

Quantifying Edge Intelligence: Inference-Time Scaling Formalisms for Heterogeneous Computing

Arxiv

0+阅读 · 2月9日

Scalable Explainability-as-a-Service (XaaS) for Edge AI Systems

Arxiv

0+阅读 · 2月4日

Energy-Efficient Neuromorphic Computing for Edge AI: A Framework with Adaptive Spiking Neural Networks and Hardware-Aware Optimization

Arxiv

0+阅读 · 2月2日

Generative Intent Prediction Agentic AI empowered Edge Service Function Chain Orchestration

Arxiv

0+阅读 · 1月20日

HybridFlow: Adaptive Task Scheduling for Fast and Token-Efficient LLM Inference in Edge-Cloud Collaboration

Arxiv

0+阅读 · 1月20日

WISP: Waste- and Interference-Suppressed Distributed Speculative LLM Serving at the Edge via Dynamic Drafting and SLO-Aware Batching

Arxiv

0+阅读 · 1月15日

相关基金

软件定义网络（SDN）环境下基于机器学习的路由预规划研究

国家自然科学基金

6+阅读 · 2015年12月31日

执行器饱和系统的新型增益调度控制理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

线性互补约束二次规划问题的一个全局算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向长尾现象的数据缓存技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

任意网络中的可分数据处理研究

国家自然科学基金

0+阅读 · 2015年12月31日

传感器非线性的模糊随机系统H无穷控制和滤波问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

面向大数据计算的高吞吐量众核处理器关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员