Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .


翻译:视频模型的快速发展主要聚焦于视觉质量,其推理能力尚未得到充分探索。视频推理将智能建立在时空一致的视觉环境中,这超越了文本自然捕捉的范畴,使得对连续性、交互性和因果性等时空结构的直观推理成为可能。然而,大规模训练数据的缺乏阻碍了对视频推理及其扩展行为的系统性研究。为填补这一空白,我们引入了超大规模视频推理数据集,这是一个前所未有的、遵循原则性分类法构建的大规模资源,涵盖200个精选推理任务和超过一百万个视频片段,其规模约为现有数据集的三个数量级。我们进一步提出了VBVR-Bench,一个可验证的评估框架,它超越了基于模型的评判,通过整合基于规则、与人类对齐的评分器,实现了对视频推理能力的可复现和可解释的诊断。利用VBVR套件,我们开展了首批大规模视频推理扩展研究之一,并观察到了对未见推理任务出现早期涌现泛化的迹象。总之,VBVR为可泛化视频推理的下一阶段研究奠定了基础。数据、基准工具包和模型已在 https://video-reason.com/ 公开提供。

0
下载
关闭预览

相关内容

VBVR:超大规模视频推理评测与数据集套件
专知会员服务
7+阅读 · 3月2日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
【NeurIPS2024】MECD:解锁视频推理中的多事件因果发现
专知会员服务
19+阅读 · 2024年9月28日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
128+阅读 · 2024年1月27日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
因果推理学习算法资源大列表
专知
27+阅读 · 2019年3月3日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
【知识图谱】大规模知识图谱的构建、推理及应用
产业智能官
38+阅读 · 2017年9月12日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月17日
Arxiv
0+阅读 · 2月23日
Arxiv
0+阅读 · 2月7日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
7+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
8+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
VBVR:超大规模视频推理评测与数据集套件
专知会员服务
7+阅读 · 3月2日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
在回答之前先解释:组合视觉推理综述
专知会员服务
15+阅读 · 2025年8月27日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
【NeurIPS2024】MECD:解锁视频推理中的多事件因果发现
专知会员服务
19+阅读 · 2024年9月28日
161页《大模型推理》最新综述,涵盖650多篇大模型论文
专知会员服务
128+阅读 · 2024年1月27日
【NeurIPS2023】大型语言模型是视觉推理协调器
专知会员服务
30+阅读 · 2023年10月24日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员