Autonomous driving increasingly relies on Visual Question Answering (VQA) to enable vehicles to understand complex surroundings by analyzing visual inputs and textual queries. Currently, a paramount concern for VQA in this domain is the stringent requirement for fast latency and real-time processing, as delays directly impact real-world safety in this safety-critical application. However, current state-of-the-art VQA models, particularly large vision-language models (VLMs), often prioritize performance over computational efficiency. These models typically process dense patch tokens for every frame, leading to prohibitive computational costs (FLOPs) and significant inference latency, especially with long video sequences. This focus limits their practical deployment in real-time autonomous driving scenarios. To tackle this issue, we propose an efficient VLM framework for autonomous driving VQA tasks, SRC-Pipeline. It learns to compress early frame tokens into a small number of high-level tokens while retaining full patch tokens for recent frames. Experiments on autonomous driving video question answering tasks show that our approach achieves 66% FLOPs reduction while maintaining comparable performance, enabling VLMs to operate more effectively in real-time, safety-critical autonomous driving settings.


翻译:自动驾驶日益依赖视觉问答(VQA)技术,通过分析视觉输入和文本查询,使车辆能够理解复杂的周围环境。当前,该领域VQA面临的一个核心挑战是对低延迟和实时处理的严格要求,因为在此安全关键型应用中,延迟会直接影响现实世界的安全性。然而,当前最先进的VQA模型,特别是大型视觉语言模型(VLM),通常优先考虑性能而非计算效率。这些模型通常处理每一帧的密集图像块标记,导致极高的计算成本(FLOPs)和显著的推理延迟,尤其是在处理长视频序列时。这种侧重点限制了它们在实时自动驾驶场景中的实际部署。为解决这一问题,我们提出了一种用于自动驾驶VQA任务的高效VLM框架——SRC-Pipeline。该框架学习将早期帧的标记压缩为少量高层级标记,同时为近期帧保留完整的图像块标记。在自动驾驶视频问答任务上的实验表明,我们的方法在保持可比性能的同时,实现了66%的FLOPs减少,使VLM能够在实时、安全关键的自动驾驶环境中更有效地运行。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
【伯克利博士论文】高效的自动驾驶3D视觉,108页pdf
专知会员服务
24+阅读 · 2024年9月1日
【2022新书】视觉问答 (VQA):从理论到应用
专知会员服务
63+阅读 · 2022年5月24日
自动驾驶技术解读——自动驾驶汽车决策控制系统
智能交通技术
30+阅读 · 2019年7月7日
自动驾驶汽车技术路线简介
智能交通技术
15+阅读 · 2019年4月25日
【优青论文】视觉问答技术研究
计算机研究与发展
13+阅读 · 2018年9月21日
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
 军事通信系统与设备的技术演进综述
专知会员服务
0+阅读 · 32分钟前
《北约标准:医疗评估手册》174页
专知会员服务
0+阅读 · 40分钟前
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 44分钟前
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
8+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
2+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
3+阅读 · 4月19日
相关资讯
相关基金
国家自然科学基金
12+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员