SignX：在紧凑且富含姿态信息的潜在空间中进行连续手语识别 (SignX: Continuous Sign Recognition in Compact Pose-Rich Latent Space) - 专知论文

会员服务 ·

0

潜在 · 手语识别 · 识别 · 连续手语识别 · 视频 ·

SignX: Continuous Sign Recognition in Compact Pose-Rich Latent Space

翻译：SignX：在紧凑且富含姿态信息的潜在空间中进行连续手语识别

Sen Fang,Yalin Feng,Chunyu Sui,Hongbin Zhong,Hongwei Yi,Dimitris N. Metaxas

from arxiv, 23 pages, CSLR SOTA (2026). More demo at https://signerx.github.io/SignX/

The complexity of sign language data processing brings many challenges. The current approach to recognition of ASL signs aims to translate RGB sign language videos through pose information into English-based ID Glosses, which serve to uniquely identify ASL signs. This paper proposes SignX, a novel framework for continuous sign language recognition in compact pose-rich latent space. First, we construct a unified latent representation that encodes heterogeneous pose formats (SMPLer-X, DWPose, Mediapipe, PrimeDepth, and Sapiens Segmentation) into a compact, information-dense space. Second, we train a ViT-based Video2Pose module to extract this latent representation directly from raw videos. Finally, we develop a temporal modeling and sequence refinement method that operates entirely in this latent space. This multi-stage design achieves end-to-end sign language recognition while significantly reducing computational consumption. Experimental results demonstrate that SignX achieves state-of-the-art accuracy on continuous sign language recognition.

翻译：手语数据处理的复杂性带来了诸多挑战。当前美国手语识别方法旨在通过姿态信息将RGB手语视频转换为基于英语的ID词元，这些词元用于唯一标识美国手语词汇。本文提出SignX，一种在紧凑且富含姿态信息的潜在空间中进行连续手语识别的新框架。首先，我们构建了一个统一的潜在表示，将异构姿态格式（SMPLer-X、DWPose、Mediapipe、PrimeDepth和Sapiens Segmentation）编码到一个紧凑且信息密集的空间中。其次，我们训练了一个基于ViT的Video2Pose模块，以直接从原始视频中提取此潜在表示。最后，我们开发了一种完全在此潜在空间中运行的时序建模与序列优化方法。这种多阶段设计实现了端到端的手语识别，同时显著降低了计算消耗。实验结果表明，SignX在连续手语识别任务上达到了最先进的准确率。

0

相关内容

【博士论文】基于视觉的手语处理：识别、翻译与生成

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

专知会员服务

20+阅读 · 2024年9月14日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

49+阅读 · 2023年4月28日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

专知会员服务

27+阅读 · 2022年10月30日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

基于深度学习的手语识别综述

基于深度学习的手语识别综述

专知会员服务

47+阅读 · 2020年5月18日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

深度学习与NLP

64+阅读 · 2017年10月29日

【前沿】凌空手势识别综述

【前沿】凌空手势识别综述

科技导报

12+阅读 · 2017年8月17日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多个小型微惯性/磁强计测量单元的手势识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Hand Gesture Recognition from Doppler Radar Signals Using Echo State Networks

Arxiv

0+阅读 · 2月4日

Stable Signer: Hierarchical Sign Language Generative Model

Arxiv

0+阅读 · 1月31日

Gen-SER: When the generative model meets speech emotion recognition

Arxiv

0+阅读 · 1月28日

Grounding or Guessing? Visual Signals for Detecting Hallucinations in Sign Language Translation

Arxiv

0+阅读 · 1月28日

MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation

Arxiv

0+阅读 · 1月27日

3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control

Arxiv

0+阅读 · 1月26日

SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays

Arxiv

0+阅读 · 1月25日

DeltaDorsal: Enhancing Hand Pose Estimation with Dorsal Features in Egocentric Views

Arxiv

0+阅读 · 1月21日

SIGNL: A Label-Efficient Audio Deepfake Detection System via Spectral-Temporal Graph Non-Contrastive Learning

Arxiv

0+阅读 · 1月12日

Convergence of Sign-based Random Reshuffling Algorithms for Nonconvex Optimization

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

连续手语识别

相关VIP内容

【博士论文】基于视觉的手语处理：识别、翻译与生成

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

专知会员服务

20+阅读 · 2024年9月14日

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

《基于边缘智能的可穿戴多模态手势识别》美空军2023最新38页报告

专知会员服务

49+阅读 · 2023年4月28日

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

自动语音识别:简介、当前趋势和有待解决的问题，97页slides

专知会员服务

24+阅读 · 2022年12月20日

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

【词汇表征】《多模态表示的半监督学习》美国空军、宾夕法尼亚大学等最新74页项目总结报告

专知会员服务

27+阅读 · 2022年10月30日

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

语音识别:不同深度学习方法的综述，Speech Recognition: a review of the different deep learning approaches

专知会员服务

33+阅读 · 2022年3月13日

动态手势理解与交互综述

专知会员服务

34+阅读 · 2021年10月11日

基于深度学习的手语识别综述

基于深度学习的手语识别综述

专知会员服务

47+阅读 · 2020年5月18日

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

【AAAI 2019 Tutorial】超越单词的神经向量表示:句子和文档嵌入（Neural Vector Representations beyond Words: Sentence and Document Embeddings），Gerard de Melo

专知会员服务

19+阅读 · 2019年11月18日

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

专知会员服务

33+阅读 · 2019年9月15日

热门VIP内容

开通专知VIP会员享更多权益服务

美国防部门开始扩建金穹反导系统基础设施

《基于选择性深度神经网络分类的弹性无线通信》最新报告

《多域作战中融合网络、电子战与动能机动》

《在东欧磨砺反无人机技能》美陆军最新反无人机训练报告

相关资讯

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

【ACMMM2020-北航】KBGN:用于视觉对话中自适应视觉-文本推理的知识桥图网络

专知

10+阅读 · 2020年8月12日

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

CVPR 2019 | 基于密集语义对齐的行人重识别模型：有效解决语义不对齐

微软研究院AI头条

10+阅读 · 2019年7月5日

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉方向简介 | 基于自然语言的跨模态行人re-id的SOTA方法（上）

计算机视觉life

12+阅读 · 2019年6月29日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

Word2Vec —— 深度学习的一小步，自然语言处理的一大步

AI研习社

21+阅读 · 2018年6月14日

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

【论文推荐】最新八篇网络节点表示相关论文—可扩展嵌入、对抗自编码器、图划分、异构信息、显式矩阵分解、深度高斯、图、随机游走

专知

14+阅读 · 2018年3月30日

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

【论文推荐】最新5篇行人再识别（ReID）相关论文—迁移学习、特征集成、重排序、多通道金字塔、深层生成模型

专知

12+阅读 · 2018年3月24日

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

2017-最全手势识别/跟踪相关资源大列表分享（论文、数据集、比赛等）

深度学习与NLP

64+阅读 · 2017年10月29日

【前沿】凌空手势识别综述

【前沿】凌空手势识别综述

科技导报

12+阅读 · 2017年8月17日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

Hand Gesture Recognition from Doppler Radar Signals Using Echo State Networks

Arxiv

0+阅读 · 2月4日

Stable Signer: Hierarchical Sign Language Generative Model

Arxiv

0+阅读 · 1月31日

Gen-SER: When the generative model meets speech emotion recognition

Arxiv

0+阅读 · 1月28日

Grounding or Guessing? Visual Signals for Detecting Hallucinations in Sign Language Translation

Arxiv

0+阅读 · 1月28日

MaDiS: Taming Masked Diffusion Language Models for Sign Language Generation

Arxiv

0+阅读 · 1月27日

3DGesPolicy: Phoneme-Aware Holistic Co-Speech Gesture Generation Based on Action Control

Arxiv

0+阅读 · 1月26日

SpatialEmb: Extract and Encode Spatial Information for 1-Stage Multi-channel Multi-speaker ASR on Arbitrary Microphone Arrays

Arxiv

0+阅读 · 1月25日

DeltaDorsal: Enhancing Hand Pose Estimation with Dorsal Features in Egocentric Views

Arxiv

0+阅读 · 1月21日

SIGNL: A Label-Efficient Audio Deepfake Detection System via Spectral-Temporal Graph Non-Contrastive Learning

Arxiv

0+阅读 · 1月12日

Convergence of Sign-based Random Reshuffling Algorithms for Nonconvex Optimization

Arxiv

0+阅读 · 1月8日

相关基金

面向大类别的空中手写中英文识别技术研究

国家自然科学基金

2+阅读 · 2017年12月31日

基于RGB-D数据的个性化手势交互技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深层特征学习的RGB-D人体行为识别方法

国家自然科学基金

4+阅读 · 2015年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

可恢复的数字语音取证水印技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多个小型微惯性/磁强计测量单元的手势识别研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

脱机手写藏文字符识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员