Unmanned Aerial Vehicles (UAVs) in disaster response require complex, queryable intelligence that on-board CNNs cannot provide. While Vision-Language Models (VLMs) offer this semantic reasoning, their high resource demands make on-device deployment infeasible, and naive cloud offloading fails under the low-bandwidth networks common in disaster zones. We present AVERY, a framework that enables VLM deployment through adaptive split computing. We advance the split computing paradigm beyond traditional depth-wise partitioning by introducing a functional, cognitive-inspired dual-stream split that separates the VLM into a high-frequency, low-resolution "context stream" for real-time awareness and a low-frequency, high-fidelity "insight stream" for deep analysis. A lightweight, self-aware on-board controller manages this architecture, monitoring network conditions and operator intent to dynamically select from pre-trained compression models, navigating the fundamental accuracy-throughput trade-off. Evaluated using the VLM LISA-7B across an edge-cloud scenario under fluctuating network conditions, AVERY consistently outperforms static configurations, achieving 11.2% higher accuracy than raw image compression and 93.98% lower energy consumption compared to full-edge execution, thereby enhancing mission efficiency and enabling real-time, queryable intelligence on resource-constrained platforms in dynamic environments.


翻译:在灾害响应中,无人机需要复杂且可查询的智能分析能力,而机载卷积神经网络无法满足这一需求。尽管视觉-语言模型能够提供此类语义推理,但其高资源需求使得在设备端部署变得不可行,而简单的云端卸载在灾害区域常见的低带宽网络环境下也会失效。本文提出AVERY框架,通过自适应分割计算实现VLM的部署。我们推进了分割计算范式,超越传统的深度分割方法,引入了一种功能化、认知启发的双流分割策略:将VLM分离为高频、低分辨率的“上下文流”用于实时感知,以及低频、高保真的“洞察流”用于深度分析。一个轻量级的、具备自我感知能力的机载控制器管理此架构,监测网络条件和操作者意图,动态选择预训练的压缩模型,以在准确性与吞吐量之间进行权衡优化。通过在波动网络条件下的边缘-云端场景中使用VLM LISA-7B进行评估,AVERY始终优于静态配置,相比原始图像压缩方法准确率提升11.2%,与全边缘执行相比能耗降低93.98%,从而提升了任务效率,并在动态环境中为资源受限平台实现了实时、可查询的智能分析能力。

0
下载
关闭预览

相关内容

【CVPR2023】DynamicDet:目标检测的统一动态架构
专知会员服务
26+阅读 · 2023年4月15日
【CVPR2021】基于Transformer的视频分割领域
专知会员服务
38+阅读 · 2021年4月16日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员