Decoupling Spatio-Temporal Adapter for Fine-Grained Badminton Action Localization - 专知论文

会员服务 ·

0

细粒度 · 粒度 · 适配 · 时序动作定位 · 解耦 ·

Decoupling Spatio-Temporal Adapter for Fine-Grained Badminton Action Localization

翻译：解耦时空适配器用于细粒度羽毛球动作定位

Tianyu Wang,Junjie Wu,Jingquan Gao,Shishuo Li

from arxiv, 11 pages, 11figures

Temporal Action Localization (TAL) has been extensively studied in generic video understanding, while fine-grained sports scenarios, such as professional badminton, remain underexplored due to their complex and subtle spatio-temporal dynamics. In this paper, we focus on fine-grained TAL in professional badminton videos and introduce a new benchmark dataset, Fine-Badminton, which consists of 31 matches with 29 fine-grained stroke categories, covering 2104 rallies and 27597 annotated actions. To effectively capture the intricate motion patterns in such scenarios, we propose a Decoupling Spatio-Temporal Adapter (DSTA), which enables efficient modeling of spatio-temporal features within a parameter-efficient framework. Specifically, DSTA decomposes motion representation into three parallel branches, capturing temporal dynamics as well as vertical and horizontal spatial variations. The design allows the model to better distinguish subtle differences among fine-grained actions. Extensive experiments on both the Fine-Badminton dataset and the ShuttleSet benchmark demonstrate that the proposed method achieves state-of-the-art performance while introducing only a marginal increase in computational and parameter cost. These results validate the effectiveness and efficiency of the proposed approach for fine-grained temporal action localization.

翻译：时序动作定位（Temporal Action Localization, TAL）在通用视频理解领域已得到广泛研究，然而在专业羽毛球等细粒度运动场景中，由于存在复杂而微妙的时空动态，相关研究仍较匮乏。本文聚焦于专业羽毛球视频中的细粒度时序动作定位，并引入一个新的基准数据集Fine-Badminton，该数据集包含31场比赛、29个细粒度击球类别，覆盖2104个回合及27597个标注动作。为有效捕捉此类场景中的复杂运动模式，我们提出一种解耦时空适配器（Decoupling Spatio-Temporal Adapter, DSTA），能够在参数高效框架内对时空特征进行高效建模。具体而言，DSTA将运动表示分解为三个并行分支，分别捕捉时间动态以及垂直和水平空间变化。该设计使模型能够更好地区分细粒度动作之间的细微差异。在Fine-Badminton数据集和ShuttleSet基准上的大量实验表明，所提方法在仅引入微小计算量和参数开销的情况下，达到了最先进性能。这些结果验证了所提方法在细粒度时序动作定位中的有效性和高效性。

0

相关内容

细粒度

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

专知会员服务

10+阅读 · 6月7日

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

专知会员服务

32+阅读 · 1月29日

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

专知会员服务

22+阅读 · 2025年5月30日

《组合优化问题强化学习框架在动态武器目标分配中的应用》61页

《组合优化问题强化学习框架在动态武器目标分配中的应用》61页

专知会员服务

68+阅读 · 2025年3月21日

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

专知会员服务

15+阅读 · 2020年12月29日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

101+阅读 · 2019年11月23日

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

144+阅读 · 2022年11月29日

【论文笔记】用于深度时空图建模的Geaph WaveNet

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

109+阅读 · 2019年11月4日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

泡泡机器人SLAM

11+阅读 · 2018年8月22日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

ADS-B大数据环境下的机场滑行时间预测及优化关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于经验模式分解和跳步-广义回归神经网络的地球定向参数预报

国家自然科学基金

0+阅读 · 2015年12月31日

基于连续波四相位法的飞行时间(TOF)三维成像图像传感器研究

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

硅基集成时域隐身器件机理研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

MambAdapter: Lightweight Mamba-Based Adapters for Parameter-Efficient Transfer Learning in Speech and Audio

Arxiv

0+阅读 · 6月14日

Decoupled Motion Representation Learning for Moving Infrared Small Target Detection

Arxiv

0+阅读 · 6月13日

SERF: Spatiotemporal Environment and Robot Feature Map for Long-Horizon Mobile Manipulation

Arxiv

0+阅读 · 6月11日

DIMOS: Disentangling Instance-level Moving Object Segmentation

Arxiv

0+阅读 · 6月11日

Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks

Arxiv

0+阅读 · 6月10日

Dynamic Execution Horizon Prediction for Chunk-based Robot Policies

Arxiv

0+阅读 · 6月9日

EvoGround: Self-Evolving Video Agents for Video Temporal Grounding

Arxiv

0+阅读 · 5月13日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection

Arxiv

0+阅读 · 3月25日

TempFuser: Learning Tactical and Agile Flight Maneuvers in Aerial Dogfights using a Long Short-Term Temporal Fusion Transformer

Arxiv

73+阅读 · 2023年9月16日

VIP会员

文章信息

相关主题

时序动作定位

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

1+阅读 · 今天14:40

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

1+阅读 · 今天14:36

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

5+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

《军事地面机动的概率等时分析：未来自适应模型的多方法协同》

专知会员服务

10+阅读 · 6月7日

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

【博士论文】视觉处理中的时域适应：人类与视觉模型带来的启示

专知会员服务

32+阅读 · 1月29日

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

《基于时序逻辑规范的移动机器人规划与控制研究进展》最新180页

专知会员服务

22+阅读 · 2025年5月30日

《组合优化问题强化学习框架在动态武器目标分配中的应用》61页

《组合优化问题强化学习框架在动态武器目标分配中的应用》61页

专知会员服务

68+阅读 · 2025年3月21日

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

AAAI2021 | DTGRM：具有自监督时间关系建模的动作分割

专知会员服务

15+阅读 · 2020年12月29日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

基于动态时空图CNNs的交通流预测，Dynamic Spatio-temporal Graph-based CNNs for Traffic Flow Prediction

专知会员服务

136+阅读 · 2020年3月8日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

40+阅读 · 2020年1月12日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

101+阅读 · 2019年11月23日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

《定位、导航和授时的作战理解》美国陆军57页技术报告

《定位、导航和授时的作战理解》美国陆军57页技术报告

专知

144+阅读 · 2022年11月29日

【论文笔记】用于深度时空图建模的Geaph WaveNet

【论文笔记】用于深度时空图建模的Geaph WaveNet

专知

109+阅读 · 2019年11月4日

自动驾驶高精度定位如何在复杂环境进行

自动驾驶高精度定位如何在复杂环境进行

智能交通技术

18+阅读 · 2019年9月27日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

利用动态深度学习预测金融时间序列基于Python

利用动态深度学习预测金融时间序列基于Python

量化投资与机器学习

18+阅读 · 2018年10月30日

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

【泡泡点云时空】3DFeat-Net：用于点云配准的弱监督学习的局部3D特征（ECCV2018-3）

泡泡机器人SLAM

12+阅读 · 2018年10月2日

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

【泡泡点云时空】PPFNet：三维点鲁棒匹配的全局上下文感知局部特征（CVPR2018-9）

泡泡机器人SLAM

11+阅读 · 2018年8月22日

基于 Keras 用深度学习预测时间序列

基于 Keras 用深度学习预测时间序列

R语言中文社区

23+阅读 · 2018年7月27日

ETP：精确时序动作定位

ETP：精确时序动作定位

极市平台

13+阅读 · 2018年5月25日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

MambAdapter: Lightweight Mamba-Based Adapters for Parameter-Efficient Transfer Learning in Speech and Audio

Arxiv

0+阅读 · 6月14日

Decoupled Motion Representation Learning for Moving Infrared Small Target Detection

Arxiv

0+阅读 · 6月13日

SERF: Spatiotemporal Environment and Robot Feature Map for Long-Horizon Mobile Manipulation

Arxiv

0+阅读 · 6月11日

DIMOS: Disentangling Instance-level Moving Object Segmentation

Arxiv

0+阅读 · 6月11日

Temporal2Seq: A Unified Framework for Temporal Video Understanding Tasks

Arxiv

0+阅读 · 6月10日

Dynamic Execution Horizon Prediction for Chunk-based Robot Policies

Arxiv

0+阅读 · 6月9日

EvoGround: Self-Evolving Video Agents for Video Temporal Grounding

Arxiv

0+阅读 · 5月13日

SpotSound: Enhancing Large Audio-Language Models with Fine-Grained Temporal Grounding

Arxiv

0+阅读 · 4月14日

Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection

Arxiv

0+阅读 · 3月25日

TempFuser: Learning Tactical and Agile Flight Maneuvers in Aerial Dogfights using a Long Short-Term Temporal Fusion Transformer

Arxiv

73+阅读 · 2023年9月16日

相关基金

空时协作定位的信息机理及算法设计

国家自然科学基金

0+阅读 · 2015年12月31日

空地机器人网络的同时视觉目标定位与分布式运动规划

国家自然科学基金

4+阅读 · 2015年12月31日

ADS-B大数据环境下的机场滑行时间预测及优化关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于经验模式分解和跳步-广义回归神经网络的地球定向参数预报

国家自然科学基金

0+阅读 · 2015年12月31日

基于连续波四相位法的飞行时间(TOF)三维成像图像传感器研究

国家自然科学基金

1+阅读 · 2015年12月31日

通用时序逻辑表达下的视频时空行为理解研究与应用

国家自然科学基金

0+阅读 · 2015年12月31日

稳健随机均值模型在时空数据分析中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

硅基集成时域隐身器件机理研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向时空变化的GIS数据模型

国家自然科学基金

6+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员