Vision-language models (VLMs) demonstrate impressive performance on standard video understanding benchmarks yet fail systematically on simple reasoning tasks that preschool children can solve, including counting, spatial reasoning, and compositional understanding. We hypothesize that the pedagogically-structured content of educational videos provides an ideal training signal for improving these capabilities. We introduce DoraVQA, a dataset of 5,344 question-answer pairs automatically extracted from 8 seasons of Dora the Explorer with precise timestamp alignment. Each episode follows a consistent \textit{context-question-pause-answer} structure that creates a self-contained learning environment analogous to interactive tutoring. We fine-tune both Qwen2 and Qwen3 using Group Relative Policy Optimization (GRPO), leveraging the clear correctness signals and structured reasoning traces inherent in educational content. Despite training exclusively on 38 hours of children's educational videos, our approach achieves improvements of 8-14 points on DoraVQA and state-of-the-art 86.16\% on CVBench, with strong transfer to Video-MME and NExT-QA, demonstrating effective generalization from narrow pedagogical content to broad multimodal understanding. Through cross-domain benchmarks, we show that VLMs can perform tasks that require robust reasoning learned from structured educational content, suggesting that content structure matters as much as content scale.


翻译:视觉-语言模型(VLMs)在标准视频理解基准上展现出令人印象深刻的性能,但在学龄前儿童都能解决的简单推理任务上却系统性失败,这些任务包括计数、空间推理和组合理解。我们假设,教育视频中具有教学结构的内容为提升这些能力提供了理想的训练信号。我们引入了DoraVQA数据集,该数据集包含从8季《爱探险的朵拉》中自动提取的5,344个问答对,并具有精确的时间戳对齐。每一集都遵循一致的“情境-提问-暂停-回答”结构,创造了一个类似于互动辅导的自包含学习环境。我们使用组相对策略优化(GRPO)对Qwen2和Qwen3进行微调,利用了教育内容中清晰的正确性信号和结构化的推理轨迹。尽管仅在38小时的儿童教育视频上进行训练,我们的方法在DoraVQA上实现了8-14个百分点的提升,并在CVBench上达到了最先进的86.16%准确率,同时能有效迁移到Video-MME和NExT-QA,证明了从狭窄的教学内容到广泛的多模态理解的有效泛化能力。通过跨领域基准测试,我们表明视觉-语言模型能够执行需要从结构化教育内容中学习的稳健推理任务,这提示内容结构与内容规模同等重要。

0
下载
关闭预览

相关内容

Video-LMM后训练:多模态大模型的视频推理深度解析
专知会员服务
14+阅读 · 2025年10月7日
视觉语言模型泛化到新领域:全面综述
专知会员服务
38+阅读 · 2025年6月27日
【TPAMI2024】增强视频-语言表示的结构时空对齐方法
专知会员服务
24+阅读 · 2024年6月30日
【经典书】计算机视觉中的结构化学习与预测,178页pdf
专知会员服务
51+阅读 · 2022年11月7日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员