Online Video Large Language Models (VideoLLMs) play a critical role in supporting responsive, real-time interaction. Existing methods focus on streaming perception, lacking a synchronized logical reasoning stream. However, directly applying test-time scaling methods incurs unacceptable response latency. To address this trade-off, we propose Video Streaming Thinking (VST), a novel paradigm for streaming video understanding. It supports a thinking while watching mechanism, which activates reasoning over incoming video clips during streaming. This design improves timely comprehension and coherent cognition while preserving real-time responsiveness by amortizing LLM reasoning latency over video playback. Furthermore, we introduce a comprehensive post-training pipeline that integrates VST-SFT, which structurally adapts the offline VideoLLM to causal streaming reasoning, and VST-RL, which provides end-to-end improvement through self-exploration in a multi-turn video interaction environment. Additionally, we devise an automated training-data synthesis pipeline that uses video knowledge graphs to generate high-quality streaming QA pairs, with an entity-relation grounded streaming Chain-of-Thought to enforce multi-evidence reasoning and sustained attention to the video stream. Extensive evaluations show that VST-7B performs strongly on online benchmarks, e.g. 79.5% on StreamingBench and 59.3% on OVO-Bench. Meanwhile, VST remains competitive on offline long-form or reasoning benchmarks. Compared with Video-R1, VST responds 15.7 times faster and achieves +5.4% improvement on VideoHolmes, demonstrating higher efficiency and strong generalization across diverse video understanding tasks. Code, data, and models will be released at https://github.com/1ranGuan/VST.


翻译:在线视频大语言模型(VideoLLMs)在支持响应式实时交互方面发挥着关键作用。现有方法侧重于流式感知,缺乏同步的逻辑推理流。然而,直接应用测试时缩放方法会导致不可接受的响应延迟。为了解决这一权衡问题,我们提出了视频流式思维(VST),一种用于流式视频理解的新范式。它支持一种“边观看边思考”的机制,在视频流传输过程中激活对传入视频片段的推理。这种设计通过在视频播放过程中分摊LLM的推理延迟,既提高了及时理解与连贯认知能力,又保持了实时响应性。此外,我们引入了一个全面的后训练流程,该流程整合了VST-SFT(用于在结构上使离线VideoLLM适应因果流式推理)和VST-RL(通过在多轮视频交互环境中进行自我探索,提供端到端的改进)。此外,我们设计了一个自动化的训练数据合成流程,该流程利用视频知识图谱生成高质量的流式问答对,并采用基于实体-关系锚定的流式思维链,以强化对视频流的多证据推理和持续注意力。广泛的评估表明,VST-7B 在在线基准测试中表现强劲,例如在 StreamingBench 上达到 79.5%,在 OVO-Bench 上达到 59.3%。同时,VST 在离线长视频或推理基准测试中仍保持竞争力。与 Video-R1 相比,VST 的响应速度快了 15.7 倍,并且在 VideoHolmes 上实现了 +5.4% 的提升,展示了其在多样化视频理解任务中更高的效率和强大的泛化能力。代码、数据和模型将在 https://github.com/1ranGuan/VST 发布。

0
下载
关闭预览

相关内容

视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月7日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关资讯
文本+视觉,多篇 Visual/Video BERT 论文介绍
AI科技评论
22+阅读 · 2019年8月30日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员