Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .


翻译:视频模型的快速发展主要聚焦于视觉质量,其推理能力尚未得到充分探索。视频推理将智能建立在时空一致的视觉环境中,超越了文本自然捕捉的范畴,实现了对连续性、交互性和因果性等时空结构的直观推理。然而,缺乏大规模训练数据阻碍了对视频推理及其扩展行为的系统性研究。为填补这一空白,我们推出了超大规模视频推理数据集,这是一个前所未有的海量资源,涵盖依据原则性分类法构建的200项精选推理任务,包含超过一百万个视频片段,规模约为现有数据集的三个数量级。我们进一步提出了VBVR-Bench,这是一个可验证的评估框架,通过整合基于规则且与人类判断对齐的评分器,超越了基于模型的评判方式,实现了对视频推理能力的可复现、可解释的诊断。借助VBVR套件,我们开展了首批大规模视频推理扩展研究之一,并观察到模型在未见推理任务上出现早期涌现泛化迹象。VBVR共同为可泛化视频推理的下一阶段研究奠定了基础。数据、基准工具包及模型已在https://video-reason.com/公开。

0
下载
关闭预览

相关内容

VBVR:超大规模视频推理评测与数据集套件
专知会员服务
7+阅读 · 3月2日
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
【NeurIPS2024】MECD:解锁视频推理中的多事件因果发现
专知会员服务
19+阅读 · 2024年9月28日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
128+阅读 · 2024年1月27日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
大规模知识图谱的构建、推理及应用
人工智能头条
15+阅读 · 2017年8月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 2月24日
Arxiv
0+阅读 · 2月7日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
8+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
VBVR:超大规模视频推理评测与数据集套件
专知会员服务
7+阅读 · 3月2日
大语言模型的智能体化推理
专知会员服务
35+阅读 · 1月21日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
感知、推理、思考与规划:大型多模态推理模型综述
专知会员服务
40+阅读 · 2025年5月10日
【NeurIPS2024】MECD:解锁视频推理中的多事件因果发现
专知会员服务
19+阅读 · 2024年9月28日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
128+阅读 · 2024年1月27日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员