Edge-Optimized Multimodal Learning for UAV Video Understanding via BLIP-2 - 专知论文

会员服务 ·

0

BLIP · BLIP-2 · Yolo · 边缘 · 多模 ·

Edge-Optimized Multimodal Learning for UAV Video Understanding via BLIP-2

翻译：面向无人机应用的边缘优化多模态学习：基于BLIP-2的视频理解

Yizhan Feng,Hichem Snoussi,Jing Teng,Jian Liu,Yuyang Wang,Abel Cherouat,Tian Wang

from arxiv, The Tenth International Conference on Data Mining and Big Data (DMBD'2025)

The demand for real-time visual understanding and interaction in complex scenarios is increasingly critical for unmanned aerial vehicles. However, a significant challenge arises from the contradiction between the high computational cost of large Vision language models and the limited computing resources available on UAV edge devices. To address this challenge, this paper proposes a lightweight multimodal task platform based on BLIP-2, integrated with YOLO-World and YOLOv8-Seg models. This integration extends the multi-task capabilities of BLIP-2 for UAV applications with minimal adaptation and without requiring task-specific fine-tuning on drone data. Firstly, the deep integration of BLIP-2 with YOLO models enables it to leverage the precise perceptual results of YOLO for fundamental tasks like object detection and instance segmentation, thereby facilitating deeper visual-attention understanding and reasoning. Secondly, a content-aware key frame sampling mechanism based on K-Means clustering is designed, which incorporates intelligent frame selection and temporal feature concatenation. This equips the lightweight BLIP-2 architecture with the capability to handle video-level interactive tasks effectively. Thirdly, a unified prompt optimization scheme for multi-task adaptation is implemented. This scheme strategically injects structured event logs from the YOLO models as contextual information into BLIP-2's input. Combined with output constraints designed to filter out technical details, this approach effectively guides the model to generate accurate and contextually relevant outputs for various tasks.

翻译：在复杂场景中对实时视觉理解与交互的需求对于无人机而言日益关键。然而，大型视觉语言模型的高计算成本与无人机边缘设备有限的计算资源之间的矛盾构成了重大挑战。为应对这一挑战，本文提出了一种基于BLIP-2的轻量级多模态任务平台，该平台集成了YOLO-World与YOLOv8-Seg模型。此集成以最小的适配工作扩展了BLIP-2面向无人机应用的多任务能力，且无需在无人机数据上进行任务特定的微调。首先，BLIP-2与YOLO模型的深度融合使其能够利用YOLO在目标检测与实例分割等基础任务上的精确感知结果，从而促进更深层次的视觉注意力理解与推理。其次，设计了一种基于K-Means聚类的内容感知关键帧采样机制，该机制融合了智能帧选择与时间特征拼接。这使轻量化的BLIP-2架构具备了有效处理视频级交互任务的能力。第三，实现了一种面向多任务适配的统一提示优化方案。该方案策略性地将来自YOLO模型的结构化事件日志作为上下文信息注入BLIP-2的输入。结合为过滤技术细节而设计的输出约束，该方法能有效引导模型为各类任务生成准确且与上下文相关的输出。

0

相关内容

BLIP

《抗干扰协同无人机中继网络的多智能体深度强化学习》

《抗干扰协同无人机中继网络的多智能体深度强化学习》

专知会员服务

28+阅读 · 2025年12月31日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

无人机边缘计算: 架构、多址接入与计算卸载

无人机边缘计算: 架构、多址接入与计算卸载

专知会员服务

36+阅读 · 2024年9月16日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

76+阅读 · 2023年2月6日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

151+阅读 · 2022年6月25日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

面向实时视频流分析的边缘计算技术

面向实时视频流分析的边缘计算技术

专知会员服务

79+阅读 · 2022年6月5日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

29+阅读 · 2011年12月31日

非确定环境下基于分层理论的无人机多机协同控制算法研究

国家自然科学基金

12+阅读 · 2010年12月31日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月17日

Fast Surrogate Learning for Multi-Objective UAV Placement in Motorway Intelligent Transportation System

Arxiv

0+阅读 · 2月14日

Quantum Takes Flight: Two-Stage Resilient Topology Optimization for UAV Networks

Arxiv

0+阅读 · 2月12日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月8日

Multi-Tier UAV Edge Computing Towards Long-Term Energy Stability for Low Altitude Networks

Arxiv

0+阅读 · 2月4日

Spatiotemporal Continual Learning for Mobile Edge UAV Networks: Mitigating Catastrophic Forgetting

Arxiv

0+阅读 · 1月29日

Quantum Takes Flight: Two-Stage Resilient Topology Optimization for UAV Networks

Arxiv

0+阅读 · 1月27日

Resource Allocation and Sharing for UAV-Assisted Integrated TN-NTN with Multi-Connectivity

Arxiv

0+阅读 · 1月26日

Communication-Efficient Multi-Modal Edge Inference via Uncertainty-Aware Distributed Learning

Arxiv

0+阅读 · 1月21日

Optimizing Energy and Data Collection in UAV-aided IoT Networks using Attention-based Multi-Objective Reinforcement Learning

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

专知会员服务

4+阅读 · 7月23日

《基于强化学习的自动化红队测试》

《基于强化学习的自动化红队测试》

专知会员服务

3+阅读 · 7月23日

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

专知会员服务

5+阅读 · 7月23日

“天降毒雾”：无人机如何使化学战重返乌克兰战场

“天降毒雾”：无人机如何使化学战重返乌克兰战场

专知会员服务

2+阅读 · 7月23日

伊朗不对称防空战略的演进

伊朗不对称防空战略的演进

专知会员服务

3+阅读 · 7月23日

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

10+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

4+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

8+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

10+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

14+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

相关VIP内容

《抗干扰协同无人机中继网络的多智能体深度强化学习》

《抗干扰协同无人机中继网络的多智能体深度强化学习》

专知会员服务

28+阅读 · 2025年12月31日

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

《面向无人机实时认知任务解决的视觉-语言-动作（VLA）模型与评估基准》

专知会员服务

42+阅读 · 2025年3月9日

无人机边缘计算: 架构、多址接入与计算卸载

无人机边缘计算: 架构、多址接入与计算卸载

专知会员服务

36+阅读 · 2024年9月16日

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

《小型无人机实时多模态定位和识别的深度学习》2023最新论文（含讲解PPT、演示视频），北约科技组织“分布式多光谱和多静态传感”会议

专知会员服务

76+阅读 · 2023年2月6日

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

「多模态信息处理」前沿综述:应用、融合和预训练，京东人工智能研究院

专知会员服务

151+阅读 · 2022年6月25日

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

【含源代码】《用机器学习提高超视距空战中的态势感知能力》最新论文，巴西空军高级研究学院、卡内基梅隆大学机器人研究所

专知会员服务

121+阅读 · 2022年6月20日

面向实时视频流分析的边缘计算技术

面向实时视频流分析的边缘计算技术

专知会员服务

79+阅读 · 2022年6月5日

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

【AI+军事】附论文《通过处理多通道声学和无线电频率信号实现无人机的识别和定位：一种深度学习方法》

专知会员服务

42+阅读 · 2022年4月24日

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

【Meta AI】多模态理解研究进展，Advances in multimodal understanding research at Meta AI

专知会员服务

68+阅读 · 2022年3月20日

【牛津大学博士论文】使用多模态深度学习的视频理解

专知会员服务

68+阅读 · 2021年10月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《基于强化学习的自动化红队测试》

“天降毒雾”：无人机如何使化学战重返乌克兰战场

《远程自主系统可扩展态势感知的解决方案》32页2026最新报告

《下一代无人机-卫星通信：人工智能创新与未来展望》32页长综述

相关资讯

数据受限条件下的多模态处理技术综述

数据受限条件下的多模态处理技术综述

专知

22+阅读 · 2022年7月16日

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 1

PaperWeekly

16+阅读 · 2022年4月29日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

专家报告|深度学习+图像多模态融合

专家报告|深度学习+图像多模态融合

中国图象图形学报

12+阅读 · 2019年10月23日

专访俞栋：多模态是迈向通用人工智能的重要方向

专访俞栋：多模态是迈向通用人工智能的重要方向

AI科技评论

27+阅读 · 2019年9月9日

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

多模态技术展望：如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关？

雷锋网

13+阅读 · 2019年3月26日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

无人机图像处理技术精髓汇总 (二) 机器学习图像分割剖析

深度学习

15+阅读 · 2018年12月19日

相关论文

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月17日

Fast Surrogate Learning for Multi-Objective UAV Placement in Motorway Intelligent Transportation System

Arxiv

0+阅读 · 2月14日

Quantum Takes Flight: Two-Stage Resilient Topology Optimization for UAV Networks

Arxiv

0+阅读 · 2月12日

LQA: A Lightweight Quantized-Adaptive Framework for Vision-Language Models on the Edge

Arxiv

0+阅读 · 2月8日

Multi-Tier UAV Edge Computing Towards Long-Term Energy Stability for Low Altitude Networks

Arxiv

0+阅读 · 2月4日

Spatiotemporal Continual Learning for Mobile Edge UAV Networks: Mitigating Catastrophic Forgetting

Arxiv

0+阅读 · 1月29日

Quantum Takes Flight: Two-Stage Resilient Topology Optimization for UAV Networks

Arxiv

0+阅读 · 1月27日

Resource Allocation and Sharing for UAV-Assisted Integrated TN-NTN with Multi-Connectivity

Arxiv

0+阅读 · 1月26日

Communication-Efficient Multi-Modal Edge Inference via Uncertainty-Aware Distributed Learning

Arxiv

0+阅读 · 1月21日

Optimizing Energy and Data Collection in UAV-aided IoT Networks using Attention-based Multi-Objective Reinforcement Learning

Arxiv

0+阅读 · 1月20日

相关基金

基于弱监督贝叶斯推断模型的多无人机协同跟踪技术研究

国家自然科学基金

14+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

无人机视频快速4-D重建及时空自适应索引方法研究

国家自然科学基金

8+阅读 · 2015年12月31日

噪声不确定下基于计算智能的多跳认知无线电网络协作频谱感知优化

国家自然科学基金

0+阅读 · 2015年12月31日

无人机自主导航中LiDAR点云与图像特征提取与配准方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

面向现代防御系统的多无人机协同优化与决策

国家自然科学基金

18+阅读 · 2012年12月31日

网络化环境下面向态势感知的多无人机协同控制与管理方法

国家自然科学基金

24+阅读 · 2011年12月31日

无人机协同组网感知融合与传感器管理关键技术研究

国家自然科学基金

29+阅读 · 2011年12月31日

非确定环境下基于分层理论的无人机多机协同控制算法研究

国家自然科学基金

12+阅读 · 2010年12月31日

微信扫码咨询专知VIP会员