Sports have long attracted broad attention as they push the limits of human physical and cognitive capabilities. Amid growing interest in spatial intelligence for vision-language models (VLMs), sports provide a natural testbed for understanding high-intensity human motion and dynamic object interactions. To this end, we present CourtSI, the first large-scale spatial intelligence dataset tailored to sports scenarios. CourtSI contains over 1M QA pairs, organized under a holistic taxonomy that systematically covers spatial counting, distance measurement, localization, and relational reasoning, across representative net sports including badminton, tennis, and table tennis. Leveraging well-defined court geometry as metric anchors, we develop a semi-automatic data engine to reconstruct sports scenes, enabling scalable curation of CourtSI. In addition, we introduce CourtSI-Bench, a high-quality evaluation benchmark comprising 3,686 QA pairs with rigorous human verification. We evaluate 25 proprietary and open-source VLMs on CourtSI-Bench, revealing a remaining human-AI performance gap and limited generalization from existing spatial intelligence benchmarks. These findings indicate that sports scenarios expose limitations in spatial intelligence capabilities captured by existing benchmarks. Further, fine-tuning Qwen3-VL-8B on CourtSI improves accuracy on CourtSI-Bench by 23.5 percentage points. The adapted model also generalizes effectively to CourtSI-Ext, an evaluation set built on a similar but unseen sport, and demonstrates enhanced spatial-aware commentary generation. Together, these findings demonstrate that CourtSI provides a scalable pathway toward advancing spatial intelligence of VLMs in sports.


翻译:体育运动因不断挑战人类身体与认知极限而长期受到广泛关注。随着对视觉语言模型空间智能兴趣的日益增长,体育领域为理解高强度人体运动与动态物体交互提供了天然的测试平台。为此,我们提出首个面向体育场景的大规模空间智能数据集CourtSI。该数据集包含超过100万个问答对,按照系统性的分类体系组织,全面覆盖羽毛球、网球、乒乓球等代表性网类运动中的空间计数、距离测量、定位与关系推理任务。通过利用明确定义的场地几何结构作为度量基准,我们开发了半自动数据引擎以重建体育场景,实现了CourtSI的可扩展构建。此外,我们推出了经过严格人工验证的高质量评估基准CourtSI-Bench,包含3,686个问答对。我们在该基准上评估了25个专有及开源视觉语言模型,揭示了当前模型与人类表现之间仍存在差距,且现有空间智能基准的泛化能力有限。这些发现表明,体育场景暴露出现有基准测试在捕捉空间智能能力方面的局限性。进一步地,基于CourtSI对Qwen3-VL-8B进行微调后,其在CourtSI-Bench上的准确率提升了23.5个百分点。微调后的模型在基于相似但未见过运动构建的评估集CourtSI-Ext上也展现出有效的泛化能力,并表现出增强的空间感知解说生成能力。综上所述,本研究证明CourtSI为推进视觉语言模型在体育领域的空间智能发展提供了可扩展的路径。

0
下载
关闭预览

相关内容

体育,又称体育运动或简称运动,是人们遵循人体的生长发育规律和身体的活动规律,通过身体锻炼、技术、训练、竞技比赛等方式达到增强体质,提高运动技术水平,丰富文化生活为目的的社会活动。 「体育」原指在学校中开展的一项促进参与者身体发展的教学活动,现在由于其广泛使用,在日常生活中已不再和运动一词做明显区分。
《大语言模型辅助生成军事训练场景》
专知会员服务
41+阅读 · 2025年11月13日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
中国人工智能系列白皮书——体育人工智能
专知会员服务
36+阅读 · 2024年10月29日
深度学习在体育应用中的研究概览:感知、理解和决策
专知会员服务
39+阅读 · 2023年7月17日
【AI+体育】机器学习在体育应用概述
专知会员服务
38+阅读 · 2022年4月17日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 4月12日
相关VIP内容
《大语言模型辅助生成军事训练场景》
专知会员服务
41+阅读 · 2025年11月13日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
【博士论文】学习视觉-语言表示以实现多模态理解
专知会员服务
28+阅读 · 2025年2月8日
中国人工智能系列白皮书——体育人工智能
专知会员服务
36+阅读 · 2024年10月29日
深度学习在体育应用中的研究概览:感知、理解和决策
专知会员服务
39+阅读 · 2023年7月17日
【AI+体育】机器学习在体育应用概述
专知会员服务
38+阅读 · 2022年4月17日
相关基金
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员