Exploring Adaptive Masked Reconstruction for Self-Supervised Skeleton-Based Action Recognition - 专知论文

会员服务 ·

0

识别 · 自适应 · 掩码 · 骨架 · 监督 ·

Exploring Adaptive Masked Reconstruction for Self-Supervised Skeleton-Based Action Recognition

翻译：探索自适应掩码重构用于自监督骨架动作识别

Shengkai Sun,Zhiyong Cheng,Zefan Zhang,Jianfeng Dong,Zhihui Li,Meng Wang

from arxiv, Accepted by CVPR2026. The code is available at https://github.com/AshenOne1005/AMR

Recently, masked skeleton reconstruction models have emerged as strong action representation learners, driving significant progress in self-supervised skeleton-based action recognition. However, existing state-of-the-art methods must predict an exceedingly large number of spatiotemporal patches, significantly prolonging training time. Besides, by treating all spatiotemporal regions equally during reconstruction, these models are distracted from learning the critical motion patterns that underlie action semantics. To address these challenges, we propose Adaptive Masked Reconstruction (AMR), a faster and stronger pre-training framework. We first decouple the decoder from the encoder, enabling flexible prediction of larger spatiotemporal patches and dramatically reducing reconstruction complexity. Given that larger patches contain more complex information, which is challenging to predict and consequently degrades performance, we accordingly introduce an adaptive guidance module. This module identifies regions of high motion informativeness, guiding the model to focus on the most discriminative parts of each patch and alleviating reconstruction difficulty. Experiments on NTU RGB+D 60, NTU RGB+D 120, and PKU-MMD datasets demonstrate that AMR not only accelerates pre-training substantially but also improves downstream recognition accuracy, surpassing current state-of-the-art approaches.

翻译：近年来，基于掩码的骨架重构模型已成为强大的动作表征学习器，推动了自监督骨架动作识别的重大进展。然而，现有最先进方法必须预测极大数量的时空块，显著延长了训练时间。此外，这些模型在重构过程中平等对待所有时空区域，导致其分散了对动作语义中关键运动模式的学习。为解决这些挑战，我们提出自适应掩码重构（AMR），一种更快更强的预训练框架。首先将解码器与编码器解耦，使得可以灵活预测更大的时空块，并大幅降低重构复杂度。由于更大的块包含更复杂的信息，难以预测并因此降低性能，我们相应地引入自适应引导模块。该模块识别高运动信息量的区域，引导模型聚焦于每个块中最具判别性的部分，并缓解重构难度。在NTU RGB+D 60、NTU RGB+D 120和PKU-MMD数据集上的实验表明，AMR不仅显著加速预训练，还提升了下游识别准确率，超越了当前最先进方法。

0

相关内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

专知会员服务

54+阅读 · 2022年12月10日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

25+阅读 · 2022年10月20日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知会员服务

46+阅读 · 2022年9月29日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【Nils Reimers】神经搜索的无监督域自适应，Unsupervised domain adaptation for neural search

【Nils Reimers】神经搜索的无监督域自适应，Unsupervised domain adaptation for neural search

专知会员服务

10+阅读 · 2022年3月8日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

17+阅读 · 2019年1月30日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

马普与Google Brain新研究：Wasserstein自动编码器

马普与Google Brain新研究：Wasserstein自动编码器

论智

27+阅读 · 2018年2月10日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于非线性动力学的复杂网络结构识别及其在力学系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

A Survey on 3D Skeleton Based Person Re-Identification: Taxonomy, Advances, Challenges, and Interdisciplinary Prospects

Arxiv

0+阅读 · 6月13日

Masked and Predictive Self-Supervised Foundation Models for 3D Brain MRI

Arxiv

0+阅读 · 6月11日

Action-Effect Memory Pretraining for Robot Manipulation

Arxiv

0+阅读 · 6月10日

Momentum-Guided Semantic Forecasting (MoFore) for Self-Supervised Video Representation Learning

Arxiv

0+阅读 · 6月8日

Robotic Policy Adaptation via Weight-Space Meta-Learning

Arxiv

0+阅读 · 6月5日

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

Arxiv

0+阅读 · 5月21日

Token-Space Mask Prediction for Efficient Vision Transformer Segmentation

Arxiv

0+阅读 · 5月18日

An Elastic Shape Variational Autoencoder for Skeleton Pose Trajectories

Arxiv

0+阅读 · 5月15日

Leveraging Code Automorphisms for Improved Syndrome-Based Neural Decoding

Arxiv

0+阅读 · 5月5日

Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning

Arxiv

0+阅读 · 3月25日

VIP会员

文章信息

相关主题

最新内容

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

专知会员服务

2+阅读 · 今天7:13

俄乌无人机战争的六大启示

俄乌无人机战争的六大启示

专知会员服务

4+阅读 · 今天7:07

《无人机空中监控：通信实验洞察》

《无人机空中监控：通信实验洞察》

专知会员服务

3+阅读 · 今天7:05

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

专知会员服务

3+阅读 · 今天6:59

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

12+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

5+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

10+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

12+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

6+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

10+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

8+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

9+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

8+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

6+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

13+阅读 · 7月31日

相关VIP内容

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

【CVPR2024】GroupContrast：语义感知的自监督表示学习用于三维理解

专知会员服务

18+阅读 · 2024年3月15日

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

自监督学习在CV进展？何恺明等最新ECCV2022教程《自监督表示学习在计算机视觉》，全面讲述自监督视觉学习进展

专知会员服务

54+阅读 · 2022年12月10日

【NeurIPS2022】基于结构聚类的自监督异构图预训练

【NeurIPS2022】基于结构聚类的自监督异构图预训练

专知会员服务

25+阅读 · 2022年10月20日

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

【牛津大学博士论文】视觉目标结构表示的自监督学习，127页pdf

专知会员服务

46+阅读 · 2022年9月29日

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

自监督学习未来是掩码自编码器？KAIST最新《自监督学习掩码自编码器》研究进展

专知会员服务

35+阅读 · 2022年8月3日

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

【何恺明组新论文】掩码自编码器作为时空学习器，Masked Autoencoders As Spatiotemporal Learners

专知会员服务

39+阅读 · 2022年5月19日

【Nils Reimers】神经搜索的无监督域自适应，Unsupervised domain adaptation for neural search

【Nils Reimers】神经搜索的无监督域自适应，Unsupervised domain adaptation for neural search

专知会员服务

10+阅读 · 2022年3月8日

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

何恺明最新论文！用于计算机视觉的可扩展自监督学习方案Masked AutoEncoders

专知会员服务

30+阅读 · 2021年11月13日

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

【CVPR2020-哈工大-京东】自监督结构建模的目标识别，Self-supervised Structure Modeling

专知会员服务

43+阅读 · 2020年4月1日

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

【反馈循环自编码器】FEEDBACK RECURRENT AUTOENCODER

专知会员服务

23+阅读 · 2020年1月28日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌无人机战争的六大启示

《无全球定位系统及通信拒止环境下用于地面目标防护的分布式无人机蜂群》（含代码）

《曝光下的战争：战场过滤与乌克兰军事选择的窄化》

《无人机空中监控：通信实验洞察》

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知

10+阅读 · 2020年3月31日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

17+阅读 · 2019年1月30日

基于人体骨架的行为识别【附PPT与视频资料】

基于人体骨架的行为识别【附PPT与视频资料】

人工智能前沿讲习班

31+阅读 · 2019年1月15日

自编码表示学习 25页最新进展综述，90篇参考文献

自编码表示学习 25页最新进展综述，90篇参考文献

专知

34+阅读 · 2018年12月18日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

马普与Google Brain新研究：Wasserstein自动编码器

马普与Google Brain新研究：Wasserstein自动编码器

论智

27+阅读 · 2018年2月10日

【VALSE 前沿技术选介17-09期】自监督学习近期进展

【VALSE 前沿技术选介17-09期】自监督学习近期进展

VALSE

13+阅读 · 2017年10月20日

相关论文

A Survey on 3D Skeleton Based Person Re-Identification: Taxonomy, Advances, Challenges, and Interdisciplinary Prospects

Arxiv

0+阅读 · 6月13日

Masked and Predictive Self-Supervised Foundation Models for 3D Brain MRI

Arxiv

0+阅读 · 6月11日

Action-Effect Memory Pretraining for Robot Manipulation

Arxiv

0+阅读 · 6月10日

Momentum-Guided Semantic Forecasting (MoFore) for Self-Supervised Video Representation Learning

Arxiv

0+阅读 · 6月8日

Robotic Policy Adaptation via Weight-Space Meta-Learning

Arxiv

0+阅读 · 6月5日

Skarimva: Skeleton-based Action Recognition is a Multi-view Application

Arxiv

0+阅读 · 5月21日

Token-Space Mask Prediction for Efficient Vision Transformer Segmentation

Arxiv

0+阅读 · 5月18日

An Elastic Shape Variational Autoencoder for Skeleton Pose Trajectories

Arxiv

0+阅读 · 5月15日

Leveraging Code Automorphisms for Improved Syndrome-Based Neural Decoding

Arxiv

0+阅读 · 5月5日

Rethinking Masking Strategies for Masked Prediction-based Audio Self-supervised Learning

Arxiv

0+阅读 · 3月25日

相关基金

动态重构综合模块化航空电子系统适航安全性评估方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

人机协调稳定约束的单腿外骨骼机器人自适应式动平衡助行控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有重构特征的系统可靠性建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

一种全新的结构修改重分析方法及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于非线性动力学的复杂网络结构识别及其在力学系统中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

可重构的环境自适应RS码软判决译码器研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员