Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries - 专知论文

会员服务 ·

0

视频 · 场景感知 · 内存 · 问答 · 上下文 ·

Vista: Scene-Aware Optimization for Streaming Video Question Answering under Post-Hoc Queries

翻译：Vista：后置查询下流式视频问答的场景感知优化

Haocheng Lu,Nan Zhang,Wei Tao,Xiaoyang Qu,Guokuan Li,Jiguang Wan,Jianzong Wang

from arxiv, Accepted to AAAI 2026 (Main Technical Track)

Streaming video question answering (Streaming Video QA) poses distinct challenges for multimodal large language models (MLLMs), as video frames arrive sequentially and user queries can be issued at arbitrary time points. Existing solutions relying on fixed-size memory or naive compression often suffer from context loss or memory overflow, limiting their effectiveness in long-form, real-time scenarios. We present Vista, a novel framework for scene-aware streaming video QA that enables efficient and scalable reasoning over continuous video streams. The innovation of Vista can be summarized in three aspects: (1) scene-aware segmentation, where Vista dynamically clusters incoming frames into temporally and visually coherent scene units; (2) scene-aware compression, where each scene is compressed into a compact token representation and stored in GPU memory for efficient index-based retrieval, while full-resolution frames are offloaded to CPU memory; and (3) scene-aware recall, where relevant scenes are selectively recalled and reintegrated into the model input upon receiving a query, enabling both efficiency and completeness. Vista is model-agnostic and integrates seamlessly with a variety of vision-language backbones, enabling long-context reasoning without compromising latency or memory efficiency. Extensive experiments on StreamingBench demonstrate that Vista achieves state-of-the-art performance, establishing a strong baseline for real-world streaming video understanding.

翻译：流式视频问答（Streaming Video QA）对多模态大语言模型（MLLMs）提出了独特的挑战，因为视频帧是顺序到达的，而用户查询可以在任意时间点发出。现有依赖于固定大小内存或简单压缩的解决方案常常遭受上下文丢失或内存溢出的问题，限制了其在长时、实时场景中的有效性。我们提出了Vista，一种用于场景感知流式视频问答的新型框架，能够在连续视频流上进行高效且可扩展的推理。Vista的创新可以概括为三个方面：（1）场景感知分割：Vista动态地将传入的视频帧聚类成时间和视觉上连贯的场景单元；（2）场景感知压缩：每个场景被压缩成一个紧凑的令牌表示并存储在GPU内存中，以实现高效的基于索引的检索，而全分辨率帧则被卸载到CPU内存；（3）场景感知召回：在接收到查询时，相关场景被选择性地召回并重新整合到模型输入中，从而同时实现效率和完整性。Vista是模型无关的，可以与各种视觉-语言骨干网络无缝集成，实现长上下文推理，而不会影响延迟或内存效率。在StreamingBench上进行的大量实验表明，Vista实现了最先进的性能，为现实世界的流式视频理解建立了一个强有力的基准。

0

相关内容

视频

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

10+阅读 · 2025年10月15日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】MASH-VLM：通过解耦时空表征缓解视频大语言模型中的动作-场景幻觉问题

【CVPR2025】MASH-VLM：通过解耦时空表征缓解视频大语言模型中的动作-场景幻觉问题

专知会员服务

13+阅读 · 2025年3月23日

【ICLR2025】流媒体视频理解与多轮交互：基于记忆增强的知识

【ICLR2025】流媒体视频理解与多轮交互：基于记忆增强的知识

专知会员服务

15+阅读 · 2025年1月25日

探索长视频生成的最新趋势

探索长视频生成的最新趋势

专知会员服务

23+阅读 · 2024年12月30日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

专知会员服务

33+阅读 · 2023年11月14日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Learning Question-Aware Keyframe Selection with Synthetic Supervision for Video Question Answering

Arxiv

0+阅读 · 3月16日

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Arxiv

0+阅读 · 3月16日

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Arxiv

0+阅读 · 3月12日

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Arxiv

0+阅读 · 3月12日

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

Arxiv

0+阅读 · 2月23日

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Arxiv

0+阅读 · 2月13日

TiFRe: Text-guided Video Frame Reduction for Efficient Video Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

video-SALMONN S: Memory-Enhanced Streaming Audio-Visual LLM

Arxiv

0+阅读 · 2月3日

FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

0+阅读 · 30分钟前

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

4+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

6+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

6+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

4+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

7+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

6+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

9+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

10+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

15+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

16+阅读 · 7月18日

相关VIP内容

多模态大语言模型下游调优中“保持自我”的重要性

多模态大语言模型下游调优中“保持自我”的重要性

专知会员服务

17+阅读 · 2025年12月15日

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

【NeurIPS2025】VideoLucy：用于长视频理解的深度记忆回溯机制

专知会员服务

10+阅读 · 2025年10月15日

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

SVBench：首个流视频长上下文理解评估基准｜ICLR'2025 Spotlight

专知会员服务

12+阅读 · 2025年4月9日

【CVPR2025】MASH-VLM：通过解耦时空表征缓解视频大语言模型中的动作-场景幻觉问题

【CVPR2025】MASH-VLM：通过解耦时空表征缓解视频大语言模型中的动作-场景幻觉问题

专知会员服务

13+阅读 · 2025年3月23日

【ICLR2025】流媒体视频理解与多轮交互：基于记忆增强的知识

【ICLR2025】流媒体视频理解与多轮交互：基于记忆增强的知识

专知会员服务

15+阅读 · 2025年1月25日

探索长视频生成的最新趋势

探索长视频生成的最新趋势

专知会员服务

23+阅读 · 2024年12月30日

视频大模型中视觉上下文表示的scaling law

视频大模型中视觉上下文表示的scaling law

专知会员服务

24+阅读 · 2024年10月21日

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

【CVPR2024】MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

专知会员服务

21+阅读 · 2024年4月9日

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

专知会员服务

33+阅读 · 2023年11月14日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

热门VIP内容

开通专知VIP会员享更多权益服务

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

相关资讯

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

【大数据】StreamSets：一个大数据采集工具

【大数据】StreamSets：一个大数据采集工具

产业智能官

40+阅读 · 2018年12月5日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

【论文推荐】最新六篇视觉问答相关论文—鲁棒性分析、虚拟意象、双曲注意力网络、R-VQA、关系推理、双线性注意力网络

专知

17+阅读 · 2018年6月7日

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

【论文推荐】最新七篇视觉问答（VQA）相关论文—差别注意力机制、视觉问题推理、视觉对话、数据可视化、记忆增强网络、显式推理

专知

17+阅读 · 2018年4月19日

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

【论文推荐】最新7篇视觉问答（VQA）相关论文—解释、读写记忆网络、逆视觉问答、视觉推理、可解释性、注意力机制、计数

专知

30+阅读 · 2018年3月22日

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

【论文推荐】最新六篇视觉问答（VQA）相关论文—盲人问题、物体计数、多模态解释、视觉关系、对抗性网络、对偶循环注意力

专知

32+阅读 · 2018年2月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

CVPR2017 VQA 任务冠军：基于双向注意力机制视觉问答pyTorch实现

专知

48+阅读 · 2017年12月24日

相关论文

Learning Question-Aware Keyframe Selection with Synthetic Supervision for Video Question Answering

Arxiv

0+阅读 · 3月16日

Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Arxiv

0+阅读 · 3月16日

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Arxiv

0+阅读 · 3月12日

Attend Before Attention: Efficient and Scalable Video Understanding via Autoregressive Gazing

Arxiv

0+阅读 · 3月12日

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

Arxiv

0+阅读 · 2月23日

CoPE-VideoLM: Codec Primitives For Efficient Video Language Models

Arxiv

0+阅读 · 2月13日

TiFRe: Text-guided Video Frame Reduction for Efficient Video Multi-modal Large Language Models

Arxiv

0+阅读 · 2月9日

VISTA: Enhancing Visual Conditioning via Track-Following Preference Optimization in Vision-Language-Action Models

Arxiv

0+阅读 · 2月4日

video-SALMONN S: Memory-Enhanced Streaming Audio-Visual LLM

Arxiv

0+阅读 · 2月3日

FastSLM: Hierarchical Frame Q-Former for Effective Speech Modality Adaptation

Arxiv

0+阅读 · 2月2日

相关基金

基于略图挖掘的在不同时空域的网络流式数据实时处理

国家自然科学基金

1+阅读 · 2015年12月31日

高性能视频云转码服务的优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于内容分析的低复杂度高效视频编码方法

国家自然科学基金

0+阅读 · 2015年12月31日

云环境下结合视觉特征的图像视频集编码与传输

国家自然科学基金

1+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

动态自适应的可伸缩视频流媒体组播编码-传输联合优化

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

以内容为中心网络的自适应流媒体传输机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向视觉质量的高效立体视频编码资源分配优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员