AIVD：面向精准高效工业视觉检测的自适应边云协同框架 (AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection) - 专知论文

会员服务 ·

0

协同 · 边缘 · 自适应 · 异构 · 调度 ·

AIVD: Adaptive Edge-Cloud Collaboration for Accurate and Efficient Industrial Visual Detection

翻译：AIVD：面向精准高效工业视觉检测的自适应边云协同框架

Yunqing Hu,Zheming Yang,Chang Zhao,Qi Guo,Meng Gao,Pengcheng Li,Wen Ji

Multimodal large language models (MLLMs) demonstrate exceptional capabilities in semantic understanding and visual reasoning, yet they still face challenges in precise object localization and resource-constrained edge-cloud deployment. To address this, this paper proposes the AIVD framework, which achieves unified precise localization and high-quality semantic generation through the collaboration between lightweight edge detectors and cloud-based MLLMs. To enhance the cloud MLLM's robustness against edge cropped-box noise and scenario variations, we design an efficient fine-tuning strategy with visual-semantic collaborative augmentation, significantly improving classification accuracy and semantic consistency. Furthermore, to maintain high throughput and low latency across heterogeneous edge devices and dynamic network conditions, we propose a heterogeneous resource-aware dynamic scheduling algorithm. Experimental results demonstrate that AIVD substantially reduces resource consumption while improving MLLM classification performance and semantic generation quality. The proposed scheduling strategy also achieves higher throughput and lower latency across diverse scenarios.

翻译：多模态大语言模型（MLLMs）在语义理解和视觉推理方面展现出卓越能力，但在精确目标定位以及资源受限的边缘-云端部署方面仍面临挑战。为此，本文提出AIVD框架，通过轻量级边缘检测器与云端MLLMs的协同，实现了统一的精确定位与高质量语义生成。为增强云端MLLM对边缘裁剪框噪声及场景变化的鲁棒性，我们设计了基于视觉-语义协同增强的高效微调策略，显著提升了分类精度与语义一致性。此外，为在异构边缘设备与动态网络条件下维持高吞吐量与低延迟，我们提出了一种异构资源感知的动态调度算法。实验结果表明，AIVD在显著降低资源消耗的同时，提升了MLLM的分类性能与语义生成质量。所提出的调度策略在多样化场景下亦实现了更高的吞吐量与更低的延迟。

0

相关内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

34+阅读 · 2025年4月12日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

17+阅读 · 2025年2月11日

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

专知会员服务

60+阅读 · 2024年6月21日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

专知会员服务

51+阅读 · 2024年4月18日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

专知会员服务

68+阅读 · 2024年2月4日

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

专知会员服务

26+阅读 · 2023年11月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

智能视觉：端边云协同的AI视觉产业研究报告，42页ppt

智能视觉：端边云协同的AI视觉产业研究报告，42页ppt

专知

10+阅读 · 2022年9月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

CGRA4ML: A Hardware/Software Framework to Implement Neural Networks for Scientific Edge Computing

Arxiv

0+阅读 · 2月4日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Arxiv

0+阅读 · 1月29日

Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework

Arxiv

0+阅读 · 1月28日

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Arxiv

0+阅读 · 1月28日

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Arxiv

0+阅读 · 1月26日

EntWorld: A Holistic Environment and Benchmark for Verifiable Enterprise GUI Agents

Arxiv

0+阅读 · 1月25日

Disc3D: Automatic Curation of High-Quality 3D Dialog Data via Discriminative Object Referring

Arxiv

0+阅读 · 1月20日

CVBench: Benchmarking Cross-Video Synergies for Complex Multimodal Reasoning

Arxiv

0+阅读 · 1月6日

VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

《面向边缘AI应用的高性能高能效架构探索》156页

《面向边缘AI应用的高性能高能效架构探索》156页

专知会员服务

34+阅读 · 2025年4月12日

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

AI生成媒体检测综述：从非多模态大语言模型到多模态大语言模型

专知会员服务

17+阅读 · 2025年2月11日

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

【CVPR2024教程】从多模态大语言模型到人类水平的AI：模态、指令、推理、效率及其他，200多页ppt

专知会员服务

60+阅读 · 2024年6月21日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

边缘AI行业深度：边缘AI硬件，引领硬件创新时代

专知会员服务

51+阅读 · 2024年4月18日

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

【博士论文】面向边缘智能的高效微型机器学习系统，212页pdf

专知会员服务

60+阅读 · 2024年2月25日

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

如何检测AIGC？最新《检测大型AI模型生成的多媒体内容》综述，详述机器文本、图像、视频、音频和多模态内容生成检测

专知会员服务

68+阅读 · 2024年2月4日

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

科研动态| 不依赖GPT-4的多模态幻觉评估benchmark来了！一键实现多维度幻觉自动分析

专知会员服务

26+阅读 · 2023年11月15日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

【AAAI2020】用于视觉对话中深度视觉理解的自适应双向编码模型（DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue）, 中科院信工所于静等

专知会员服务

29+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

美国防部门开始扩建金穹反导系统基础设施

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

相关资讯

智能视觉：端边云协同的AI视觉产业研究报告，42页ppt

智能视觉：端边云协同的AI视觉产业研究报告，42页ppt

专知

10+阅读 · 2022年9月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

重磅！AI框架发展白皮书（2022年）,44页pdf

重磅！AI框架发展白皮书（2022年）,44页pdf

专知

28+阅读 · 2022年2月27日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

【研究报告】《边缘计算参考架构3.0》、《边云协同白皮书》发布！（附下载）

产业智能官

26+阅读 · 2019年10月12日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

爱奇艺基于AI的移动端自动化测试框架的设计

爱奇艺基于AI的移动端自动化测试框架的设计

前端之巅

18+阅读 · 2019年2月27日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

相关论文

CGRA4ML: A Hardware/Software Framework to Implement Neural Networks for Scientific Edge Computing

Arxiv

0+阅读 · 2月4日

AlignGemini: Generalizable AI-Generated Image Detection Through Task-Model Alignment

Arxiv

0+阅读 · 1月30日

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Arxiv

0+阅读 · 1月29日

Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework

Arxiv

0+阅读 · 1月28日

OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

Arxiv

0+阅读 · 1月28日

AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning

Arxiv

0+阅读 · 1月26日

EntWorld: A Holistic Environment and Benchmark for Verifiable Enterprise GUI Agents

Arxiv

0+阅读 · 1月25日

Disc3D: Automatic Curation of High-Quality 3D Dialog Data via Discriminative Object Referring

Arxiv

0+阅读 · 1月20日

CVBench: Benchmarking Cross-Video Synergies for Complex Multimodal Reasoning

Arxiv

0+阅读 · 1月6日

VLN-MME: Diagnosing MLLMs as Language-guided Visual Navigation agents

Arxiv

0+阅读 · 1月6日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

模拟人眼视觉特性的高性能矢量多边形叠加分析算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算环境下面向大数据的在线聚集并行优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于自学习对比度视觉注意模型和自适应深度特征的无分类目标检测

国家自然科学基金

2+阅读 · 2015年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

微信扫码咨询专知VIP会员