Rapid progress in video models has largely focused on visual quality, leaving their reasoning capabilities underexplored. Video reasoning grounds intelligence in spatiotemporally consistent visual environments that go beyond what text can naturally capture, enabling intuitive reasoning over spatiotemporal structure such as continuity, interaction, and causality. However, systematically studying video reasoning and its scaling behavior is hindered by the lack of large-scale training data. To address this gap, we introduce the Very Big Video Reasoning (VBVR) Dataset, an unprecedentedly large-scale resource spanning 200 curated reasoning tasks following a principled taxonomy and over one million video clips, approximately three orders of magnitude larger than existing datasets. We further present VBVR-Bench, a verifiable evaluation framework that moves beyond model-based judging by incorporating rule-based, human-aligned scorers, enabling reproducible and interpretable diagnosis of video reasoning capabilities. Leveraging the VBVR suite, we conduct one of the first large-scale scaling studies of video reasoning and observe early signs of emergent generalization to unseen reasoning tasks. Together, VBVR lays a foundation for the next stage of research in generalizable video reasoning. The data, benchmark toolkit, and models are publicly available at https://video-reason.com/ .


翻译:暂无翻译

0
下载
关闭预览

相关内容

VBVR:超大规模视频推理评测与数据集套件
专知会员服务
6+阅读 · 3月2日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
【CVPR2025】基于大语言模型的视频摘要生成
专知会员服务
12+阅读 · 2025年4月21日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
视频分析大模型技术
专知会员服务
42+阅读 · 2024年10月19日
视频大模型奇点时刻加速到来
专知会员服务
28+阅读 · 2024年8月21日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
视频生成的前沿论文,看我们推荐的7篇就够了
人工智能前沿讲习班
34+阅读 · 2018年12月30日
一文概览基于深度学习的超分辨率重建架构
视频超分辨 Detail-revealing Deep Video Super-resolution 论文笔记
统计学习与视觉计算组
17+阅读 · 2018年3月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
76+阅读 · 2022年3月26日
SlowFast Networks for Video Recognition
Arxiv
19+阅读 · 2018年12月10日
VIP会员
相关VIP内容
VBVR:超大规模视频推理评测与数据集套件
专知会员服务
6+阅读 · 3月2日
Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
16+阅读 · 2025年10月7日
【CVPR2025】基于大语言模型的视频摘要生成
专知会员服务
12+阅读 · 2025年4月21日
视频大模型中视觉上下文表示的scaling law
专知会员服务
24+阅读 · 2024年10月21日
视频分析大模型技术
专知会员服务
42+阅读 · 2024年10月19日
视频大模型奇点时刻加速到来
专知会员服务
28+阅读 · 2024年8月21日
《大型语言模型视频理解》综述
专知会员服务
59+阅读 · 2024年1月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员