AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems - 专知论文

会员服务 ·

0

自适应 · 分割 · 计算框架 · 系统 · 边缘 ·

AVERY: Adaptive VLM Split Computing through Embodied Self-Awareness for Efficient Disaster Response Systems

翻译：AVERY：基于具身自适应的自适应VLM分割计算框架用于高效灾害响应系统

Rajat Bhattacharjya,Sing-Yao Wu,Hyunwoo Oh,Chaewon Nam,Suyeon Koo,Mohsen Imani,Elaheh Bozorgzadeh,Nikil Dutt

from arxiv, 8 pages, 5 figures. Paper is currently under review. Authors' version posted for personal use and not for redistribution

Unmanned Aerial Vehicles (UAVs) in disaster response require complex, queryable intelligence that on-board CNNs cannot provide. While Vision-Language Models (VLMs) offer this semantic reasoning, their high resource demands make on-device deployment infeasible, and naive cloud offloading fails under the low-bandwidth networks common in disaster zones. We present AVERY, a framework that enables VLM deployment through adaptive split computing. We advance the split computing paradigm beyond traditional depth-wise partitioning by introducing a functional, cognitive-inspired dual-stream split that separates the VLM into a high-frequency, low-resolution "context stream" for real-time awareness and a low-frequency, high-fidelity "insight stream" for deep analysis. A lightweight, self-aware on-board controller manages this architecture, monitoring network conditions and operator intent to dynamically select from pre-trained compression models, navigating the fundamental accuracy-throughput trade-off. Evaluated using the VLM LISA-7B across an edge-cloud scenario under fluctuating network conditions, AVERY consistently outperforms static configurations, achieving 11.2% higher accuracy than raw image compression and 93.98% lower energy consumption compared to full-edge execution, thereby enhancing mission efficiency and enabling real-time, queryable intelligence on resource-constrained platforms in dynamic environments.

翻译：灾害响应中的无人机需要复杂、可查询的智能能力，而机载CNN无法提供此类能力。虽然视觉-语言模型具备这种语义推理能力，但其高资源需求使得在设备端部署不可行，而在灾害区域常见的低带宽网络中，简单的云端卸载方案也会失效。我们提出了AVERY框架，通过自适应分割计算实现VLM的部署。我们将分割计算范式从传统的深度划分推进到功能化、认知启发的双流分割，将VLM分离为高频低分辨率的"上下文流"用于实时感知，以及低频高保真的"洞察流"用于深度分析。一个轻量级的自适应机载控制器管理该架构，通过监控网络条件和操作者意图，动态选择预训练的压缩模型，从而在准确性与吞吐量的根本权衡中进行优化。在波动网络条件下的边缘-云端场景中，使用VLM LISA-7B进行评估，AVERY始终优于静态配置方案：相比原始图像压缩方法准确率提升11.2%，与全边缘执行相比能耗降低93.98%，从而提升了任务效率，并在动态环境中的资源受限平台上实现了实时可查询的智能能力。

0

相关内容

自适应

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

专知会员服务

22+阅读 · 3月3日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《无人机在监视和侦察任务中使用MITRE攻击框架的适应性》最新80页

《无人机在监视和侦察任务中使用MITRE攻击框架的适应性》最新80页

专知会员服务

39+阅读 · 2024年12月16日

基于UNet的医学图像分割综述

基于UNet的医学图像分割综述

专知会员服务

38+阅读 · 2023年8月8日

《灾难响应中的 AI赋能态势感知》约翰霍普金斯大学48页技术报告

《灾难响应中的 AI赋能态势感知》约翰霍普金斯大学48页技术报告

专知会员服务

45+阅读 · 2022年12月19日

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知会员服务

21+阅读 · 2022年12月7日

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

专知会员服务

22+阅读 · 2022年7月19日

动态滤波器卷积新高度！DDF：同时解决内容不可知与计算量两大缺陷｜CVPR2021

专知会员服务

21+阅读 · 2021年5月4日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

关于CNN图像分类的一份综合设计指南

关于CNN图像分类的一份综合设计指南

云栖社区

11+阅读 · 2018年5月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

突发灾难环境下混合式移动社会网络的消息分发机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂地震环境下多源遥感影像引力智能优化分类模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于物联网的滑坡灾害应急预案仿真研究

国家自然科学基金

1+阅读 · 2014年12月31日

云架构接入网中面向多业务的计算与无线资源分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Drones that Think on their Feet: Sudden Landing Decisions with Embodied AI

Arxiv

1+阅读 · 2月19日

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Arxiv

0+阅读 · 2月17日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月17日

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

Arxiv

0+阅读 · 2月17日

APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

Arxiv

0+阅读 · 2月17日

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

Arxiv

0+阅读 · 2月17日

Instance-Guided Unsupervised Domain Adaptation for Robotic Semantic Segmentation

Arxiv

0+阅读 · 2月15日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月8日

GeoResponder: Towards Building Geospatial LLMs for Time-Critical Disaster Response

Arxiv

0+阅读 · 2月3日

AI-Assisted Adaptive Rendering for High-Frequency Security Telemetry in Web Interfaces

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

1+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

5+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

《一种用于GNSS拒止环境中执行情报、监视与侦察任务集的无人机设计任务工程框架》

专知会员服务

22+阅读 · 3月3日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

《无人机在监视和侦察任务中使用MITRE攻击框架的适应性》最新80页

《无人机在监视和侦察任务中使用MITRE攻击框架的适应性》最新80页

专知会员服务

39+阅读 · 2024年12月16日

基于UNet的医学图像分割综述

基于UNet的医学图像分割综述

专知会员服务

38+阅读 · 2023年8月8日

《灾难响应中的 AI赋能态势感知》约翰霍普金斯大学48页技术报告

《灾难响应中的 AI赋能态势感知》约翰霍普金斯大学48页技术报告

专知会员服务

45+阅读 · 2022年12月19日

【AAAI2023】面向领域自适应语义分割的几何感知网络

【AAAI2023】面向领域自适应语义分割的几何感知网络

专知会员服务

21+阅读 · 2022年12月7日

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

Transformer 落地出现 | Next-ViT实现工业TensorRT实时落地，超越ResNet、CSWin

专知会员服务

22+阅读 · 2022年7月19日

动态滤波器卷积新高度！DDF：同时解决内容不可知与计算量两大缺陷｜CVPR2021

专知会员服务

21+阅读 · 2021年5月4日

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

【CVPR2020-清华大学】分辨率自适应网络的有效推理，Resolution Adaptive Networks

专知会员服务

22+阅读 · 2020年3月17日

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

【理解计算机视觉损失函数】《Understanding Loss Functions in Computer Vision!》by Sowmya Yellapragad

专知会员服务

44+阅读 · 2020年3月4日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

【泡泡图灵智库】CNN-SVO 提升半直接视觉里程计的建图效果（arXiv）

泡泡机器人SLAM

29+阅读 · 2019年5月27日

自注意力机制在计算机视觉中的应用

自注意力机制在计算机视觉中的应用

GAN生成式对抗网络

19+阅读 · 2018年12月20日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

关于CNN图像分类的一份综合设计指南

关于CNN图像分类的一份综合设计指南

云栖社区

11+阅读 · 2018年5月15日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

CVPR 2018 | 优于Mask R-CNN，港中文&腾讯优图提出PANet实例分割框架

机器之心

16+阅读 · 2018年3月12日

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

【机器视觉】计算机视觉必读：图像分类、定位、检测，语义分割和实例分割方法梳理

产业智能官

29+阅读 · 2018年2月3日

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

【计算机视觉必读干货】图像分类、定位、检测，语义分割和实例分割方法梳理

新智元

35+阅读 · 2018年1月24日

相关论文

Drones that Think on their Feet: Sudden Landing Decisions with Embodied AI

Arxiv

1+阅读 · 2月19日

LeafNet: A Large-Scale Dataset and Comprehensive Benchmark for Foundational Vision-Language Understanding of Plant Diseases

Arxiv

0+阅读 · 2月17日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月17日

VLCE: A Knowledge-Enhanced Framework for Image Description in Disaster Assessment

Arxiv

0+阅读 · 2月17日

APCoTTA: Continual Test-Time Adaptation for Semantic Segmentation of Airborne LiDAR Point Clouds

Arxiv

0+阅读 · 2月17日

EventMemAgent: Hierarchical Event-Centric Memory for Online Video Understanding with Adaptive Tool Use

Arxiv

0+阅读 · 2月17日

Instance-Guided Unsupervised Domain Adaptation for Robotic Semantic Segmentation

Arxiv

0+阅读 · 2月15日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月8日

GeoResponder: Towards Building Geospatial LLMs for Time-Critical Disaster Response

Arxiv

0+阅读 · 2月3日

AI-Assisted Adaptive Rendering for High-Frequency Security Telemetry in Web Interfaces

Arxiv

0+阅读 · 2月2日

相关基金

突发灾难环境下混合式移动社会网络的消息分发机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向多云块并行移动计算迁移的环境自适应程序分割技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

海量数据流实时分发技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

复杂地震环境下多源遥感影像引力智能优化分类模型与算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于物联网的滑坡灾害应急预案仿真研究

国家自然科学基金

1+阅读 · 2014年12月31日

云架构接入网中面向多业务的计算与无线资源分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员