Sports-QA：面向复杂专业体育场景的大规模视频问答基准 (Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports) - 专知论文

会员服务 ·

0

体育 · 视频 · 问答 · 自动问答 · 数据集 ·

Sports-QA: A Large-Scale Video Question Answering Benchmark for Complex and Professional Sports

翻译：Sports-QA：面向复杂专业体育场景的大规模视频问答基准

Haopeng Li,Andong Deng,Jun Liu,Hossein Rahmani,Yulan Guo,Bernt Schiele,Mohammed Bennamoun,Qiuhong Ke

Reasoning over sports videos for question answering is an important task with numerous applications, such as player training and information retrieval. However, this task has not been explored due to the lack of relevant datasets and the challenging nature it presents. Most datasets for video question answering (VideoQA) focus mainly on general and coarse-grained understanding of daily-life videos, which is not applicable to sports scenarios requiring professional action understanding and fine-grained motion analysis. In this paper, we introduce the first dataset, named Sports-QA, specifically designed for the sports VideoQA task. The Sports-QA dataset includes various types of questions, such as descriptions, chronologies, causalities, and counterfactual conditions, covering multiple sports. Furthermore, to address the characteristics of the sports VideoQA task, we propose a new Auto-Focus Transformer (AFT) capable of automatically focusing on particular scales of temporal information for question answering. We conduct extensive experiments on Sports-QA, including baseline studies and the evaluation of different methods. The results demonstrate that our AFT achieves state-of-the-art performance.

翻译：基于体育视频进行推理问答是一项具有重要应用价值（如运动员训练和信息检索）的任务。然而，由于缺乏相关数据集及其固有的挑战性，该任务尚未得到充分探索。现有的大多数视频问答数据集主要关注对日常生活视频的通用、粗粒度理解，难以适用于需要专业动作理解和细粒度运动分析的体育场景。本文首次提出了专门针对体育视频问答任务的数据集，命名为Sports-QA。该数据集涵盖多种体育项目，包含描述类、时序类、因果类及反事实条件类等多种问题类型。此外，为适应体育视频问答任务的特点，我们提出了一种新型自动聚焦Transformer模型，能够自动聚焦于特定尺度的时间信息以进行问答。我们在Sports-QA上进行了大量实验，包括基线研究及多种方法的评估。结果表明，所提出的AFT模型取得了最先进的性能。

0

相关内容

体育，又称体育运动或简称运动，是人们遵循人体的生长发育规律和身体的活动规律，通过身体锻炼、技术、训练、竞技比赛等方式达到增强体质，提高运动技术水平，丰富文化生活为目的的社会活动。「体育」原指在学校中开展的一项促进参与者身体发展的教学活动，现在由于其广泛使用，在日常生活中已不再和运动一词做明显区分。

Video-LMM后训练：多模态大模型的视频推理深度解析

Video-LMM后训练：多模态大模型的视频推理深度解析

专知会员服务

14+阅读 · 2025年10月7日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【CVPR2024】Koala: 关键帧条件化长视频语言模型

【CVPR2024】Koala: 关键帧条件化长视频语言模型

专知会员服务

13+阅读 · 2024年4月21日

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

18+阅读 · 2024年4月10日

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

专知会员服务

33+阅读 · 2023年11月14日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

深度学习在体育应用中的研究概览：感知、理解和决策

深度学习在体育应用中的研究概览：感知、理解和决策

专知会员服务

39+阅读 · 2023年7月17日

【AI+体育】机器学习在体育应用概述

【AI+体育】机器学习在体育应用概述

专知会员服务

38+阅读 · 2022年4月17日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

《深度学习500问》一份超全深度学习资料，面试必备！

《深度学习500问》一份超全深度学习资料，面试必备！

专知

22+阅读 · 2018年10月23日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

Google & CMU：62页PPT带你理解QANet（附下载链接）

Google & CMU：62页PPT带你理解QANet（附下载链接）

机器学习算法与Python学习

13+阅读 · 2018年7月19日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

问答系统冠军之路：用CNN做问答任务的QANet

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

高分卫星视频运动目标检测与轨迹提取方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning

Arxiv

0+阅读 · 2月5日

RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis

Arxiv

0+阅读 · 1月28日

ProSkill: Segment-Level Skill Assessment in Procedural Videos

Arxiv

0+阅读 · 1月28日

Video-KTR: Reinforcing Video Reasoning via Key Token Attribution

Arxiv

0+阅读 · 1月27日

PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models

Arxiv

0+阅读 · 1月22日

Action100M: A Large-scale Video Action Dataset

Arxiv

0+阅读 · 1月15日

Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs

Arxiv

0+阅读 · 1月14日

Improving Video Question Answering through query-based frame selection

Arxiv

0+阅读 · 1月12日

QCaption: Video Captioning and Q&A through Fusion of Large Multimodal Models

Arxiv

0+阅读 · 1月10日

FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月7日

VIP会员

文章信息

相关主题

相关VIP内容

Video-LMM后训练：多模态大模型的视频推理深度解析

Video-LMM后训练：多模态大模型的视频推理深度解析

专知会员服务

14+阅读 · 2025年10月7日

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

【CVPR2025】《VideoMage：文本到视频扩散模型的多主体与运动定制》

专知会员服务

12+阅读 · 2025年3月28日

【CVPR2024】Koala: 关键帧条件化长视频语言模型

【CVPR2024】Koala: 关键帧条件化长视频语言模型

专知会员服务

13+阅读 · 2024年4月21日

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

【CVPR2024】MoReVQA:探索视频问答的模块化推理模型

专知会员服务

18+阅读 · 2024年4月10日

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

GPT-4V在问答上怎么样？哈工大最新《在知识密集型视觉问答上》的全面评估，常识、细粒度知识、决策均领先

专知会员服务

33+阅读 · 2023年11月14日

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

西安交大等最新《鲁棒视觉问题回答》综述，20页pdf详述RVQA数据集、方法和未来挑战

专知会员服务

21+阅读 · 2023年7月25日

深度学习在体育应用中的研究概览：感知、理解和决策

深度学习在体育应用中的研究概览：感知、理解和决策

专知会员服务

39+阅读 · 2023年7月17日

【AI+体育】机器学习在体育应用概述

【AI+体育】机器学习在体育应用概述

专知会员服务

38+阅读 · 2022年4月17日

基于视觉和语言的跨媒体问答与推理研究综述

专知会员服务

32+阅读 · 2021年3月17日

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

【视频描述综述论文】Video Description: A Survey of Methods, Datasets, and Evaluation Metrics

专知会员服务

65+阅读 · 2020年5月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

《深度学习500问》一份超全深度学习资料，面试必备！

《深度学习500问》一份超全深度学习资料，面试必备！

专知

22+阅读 · 2018年10月23日

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

火锅 QA? 斯坦福又双叒提出了一个新 QA 数据集HotpotQA，面向自然和多跳问答！

专知

29+阅读 · 2018年9月27日

【优青论文】视觉问答技术研究

【优青论文】视觉问答技术研究

计算机研究与发展

13+阅读 · 2018年9月21日

Google & CMU：62页PPT带你理解QANet（附下载链接）

Google & CMU：62页PPT带你理解QANet（附下载链接）

机器学习算法与Python学习

13+阅读 · 2018年7月19日

【干货】计算机视觉视频理解领域的经典方法和最新成果

【干货】计算机视觉视频理解领域的经典方法和最新成果

新智元

15+阅读 · 2018年5月28日

问答系统冠军之路：用CNN做问答任务的QANet

问答系统冠军之路：用CNN做问答任务的QANet

AI科技评论

18+阅读 · 2018年5月11日

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

【论文推荐】最新六篇自动问答（QA）相关论文—复杂序列问答、注意力机制、长短时记忆、文本推理、多因素注意力、主动的问答智能体

专知

18+阅读 · 2018年2月22日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

【Kaggle 实战分享】谷歌 YouTube-8M 大规模视频理解竞赛技术剖析

新智元

12+阅读 · 2017年8月3日

相关论文

Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning

Arxiv

0+阅读 · 2月5日

RacketVision: A Multiple Racket Sports Benchmark for Unified Ball and Racket Analysis

Arxiv

0+阅读 · 1月28日

ProSkill: Segment-Level Skill Assessment in Procedural Videos

Arxiv

0+阅读 · 1月28日

Video-KTR: Reinforcing Video Reasoning via Key Token Attribution

Arxiv

0+阅读 · 1月27日

PhysicsMind: Sim and Real Mechanics Benchmarking for Physical Reasoning and Prediction in Foundational VLMs and World Models

Arxiv

0+阅读 · 1月22日

Action100M: A Large-scale Video Action Dataset

Arxiv

0+阅读 · 1月15日

Video-MSR: Benchmarking Multi-hop Spatial Reasoning Capabilities of MLLMs

Arxiv

0+阅读 · 1月14日

Improving Video Question Answering through query-based frame selection

Arxiv

0+阅读 · 1月12日

QCaption: Video Captioning and Q&A through Fusion of Large Multimodal Models

Arxiv

0+阅读 · 1月10日

FastV-RAG: Towards Fast and Fine-Grained Video QA with Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月7日

相关基金

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

复杂运动场景视频大数据中异常事件检测研究

国家自然科学基金

2+阅读 · 2015年12月31日

视频场景下大位移运动目标的持续性跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多源视频的大范围场景目标跟踪

国家自然科学基金

2+阅读 · 2015年12月31日

高分卫星视频运动目标检测与轨迹提取方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于压缩域的海量视频浓缩关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员