Ask the Expert: Collaborative Inference for Vision Transformers with Near-Edge Accelerators - 专知论文

会员服务 ·

0

边缘 · 协同 · 视觉Transformer · 卸载 · 准确率 ·

Ask the Expert: Collaborative Inference for Vision Transformers with Near-Edge Accelerators

翻译：咨询专家：基于近边缘加速器的视觉Transformer协同推理框架

Hao Liu,Suhaib A. Fahmy

Deploying Vision Transformers on edge devices is challenging due to their high computational complexity, while full offloading to cloud resources presents significant latency overheads. We propose a novel collaborative inference framework, which orchestrates a lightweight generalist ViT on an edge device and multiple medium-sized expert ViTs on a near-edge accelerator. A novel routing mechanism uses the edge model's Top-$\mathit{k}$ predictions to dynamically select the most relevant expert for samples with low confidence. We further design a progressive specialist training strategy to enhance expert accuracy on dataset subsets. Extensive experiments on the CIFAR-100 dataset using a real-world edge and near-edge testbed demonstrate the superiority of our framework. Specifically, the proposed training strategy improves expert specialization accuracy by 4.12% on target subsets and enhances overall accuracy by 2.76% over static experts. Moreover, our method reduces latency by up to 45% compared to edge execution, and energy consumption by up to 46% compared to just near-edge offload.

翻译：在边缘设备上部署视觉Transformer模型面临高计算复杂度的挑战，而完全卸载至云端资源则会产生显著的延迟开销。本文提出一种新颖的协同推理框架，通过在边缘设备上部署轻量级通用ViT模型，同时在近边缘加速器上配置多个中等规模的专家ViT模型来实现协同推理。我们设计了一种新型路由机制，利用边缘模型的Top-$\mathit{k}$预测结果，对置信度较低的样本动态选择最相关的专家模型进行处理。为进一步提升专家模型在数据集子集上的准确性，我们提出渐进式专家训练策略。基于CIFAR-100数据集，在真实边缘与近边缘测试平台上进行的广泛实验验证了本框架的优越性。具体而言，所提出的训练策略使目标子集上的专家专业化准确率提升4.12%，整体准确率较静态专家模型提高2.76%。此外，与纯边缘执行方案相比，本方法延迟降低最高达45%；与纯近边缘卸载方案相比，能耗降低最高达46%。

0

相关内容

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

《模型量化与视觉变换器硬件加速》综述

《模型量化与视觉变换器硬件加速》综述

专知会员服务

23+阅读 · 2024年5月5日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

54+阅读 · 2022年11月1日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

专知会员服务

22+阅读 · 2022年7月19日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

变形监测中无线传感器网络应用的理论与技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models

Arxiv

0+阅读 · 3月12日

RAViT: Resolution-Adaptive Vision Transformer

Arxiv

0+阅读 · 2月27日

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Arxiv

0+阅读 · 2月24日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Arxiv

0+阅读 · 2月11日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Hemlet: A Heterogeneous Compute-in-Memory Chiplet Architecture for Vision Transformers with Group-Level Parallelism

Arxiv

0+阅读 · 2月9日

Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks

Arxiv

0+阅读 · 2月6日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

视觉Transformer

最新内容

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

1+阅读 · 33分钟前

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

3+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

4+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

2+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

3+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

5+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

4+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

5+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

8+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

10+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

相关VIP内容

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

【CVPR2025】超图视觉Transformer：图像不仅仅是节点，也不仅仅是边

专知会员服务

13+阅读 · 2025年4月14日

《模型量化与视觉变换器硬件加速》综述

《模型量化与视觉变换器硬件加速》综述

专知会员服务

23+阅读 · 2024年5月5日

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

【TPAMI2023】PSLT：一种带有梯形自注意力和逐步位移的轻量级视觉Transformer

专知会员服务

26+阅读 · 2023年9月4日

用于识别任务的视觉 Transformer 综述

用于识别任务的视觉 Transformer 综述

专知会员服务

75+阅读 · 2023年2月25日

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

【美国陆军·新方法加速人工智能战场决策】《深度压缩卸载：通过交易边缘计算加速神经网络推理以改善网络延迟》网络传感领域的顶级会议（2020）最佳论文奖

专知会员服务

54+阅读 · 2022年11月1日

最新《Transformers》报告，Google Lucas Beyer 报告

最新《Transformers》报告，Google Lucas Beyer 报告

专知会员服务

69+阅读 · 2022年9月13日

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

专知会员服务

22+阅读 · 2022年7月19日

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

《视觉Transformer》最新简明综述，概述视觉Transformers 的不同架构设计和训练技巧

专知会员服务

67+阅读 · 2022年7月8日

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

中科院计算所最新「视觉Transformer」综述论文，带你全面了解最新CV分类、检测/分割方法

专知会员服务

99+阅读 · 2021年11月16日

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

【CVPR2021】Transformer遇见跟踪器：利用时间上下文进行视觉追踪

专知会员服务

17+阅读 · 2021年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

伊朗战争中的电子战

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

相关资讯

【干货书】《Transformers 机器学习:深度探究》，284页pdf

【干货书】《Transformers 机器学习:深度探究》，284页pdf

专知

72+阅读 · 2022年4月21日

【Tutorial】计算机视觉中的Transformer，98页ppt

【Tutorial】计算机视觉中的Transformer，98页ppt

专知

21+阅读 · 2021年10月25日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

通过集成 XNNPACK 实现推理速度飞跃

通过集成 XNNPACK 实现推理速度飞跃

TensorFlow

26+阅读 · 2020年7月30日

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

Transformers就是图神经网络？NTU-Chaitanya Joshi论述: 是GNN的一个特例

专知

20+阅读 · 2020年3月1日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

TensorFlow 2.0官方Transformer教程 (Attention is All you Need)

专知

54+阅读 · 2019年4月12日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

边缘计算：万物互联时代新型计算模型

边缘计算：万物互联时代新型计算模型

计算机研究与发展

15+阅读 · 2017年5月19日

相关论文

RAPID: Redundancy-Aware and Compatibility-Optimal Edge-Cloud Partitioned Inference for Diverse VLA Models

Arxiv

0+阅读 · 3月12日

RAViT: Resolution-Adaptive Vision Transformer

Arxiv

0+阅读 · 2月27日

Scaling Vision Transformers: Evaluating DeepSpeed for Image-Centric Workloads

Arxiv

0+阅读 · 2月24日

A Study on Inference Latency for Vision Transformers on Mobile Devices

Arxiv

0+阅读 · 2月18日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

SnapGen++: Unleashing Diffusion Transformers for Efficient High-Fidelity Image Generation on Edge Devices

Arxiv

0+阅读 · 2月11日

Compiler-Assisted Speculative Sampling for Accelerated LLM Inference on Heterogeneous Edge Devices

Arxiv

0+阅读 · 2月10日

Hemlet: A Heterogeneous Compute-in-Memory Chiplet Architecture for Vision Transformers with Group-Level Parallelism

Arxiv

0+阅读 · 2月9日

Multi-Agentic AI for Fairness-Aware and Accelerated Multi-modal Large Model Inference in Real-world Mobile Edge Networks

Arxiv

0+阅读 · 2月6日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

相关基金

未知环境下基于单目视觉的移动平台目标跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

移动增强现实中基于视觉—惯性传感器的混合跟踪方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于框架提升变换的多源图像融合研究

国家自然科学基金

1+阅读 · 2015年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

变形监测中无线传感器网络应用的理论与技术

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员