Recognizing Co-Speech Gestures in-the-Wild

While humans naturally gesture during speech, only a sparse subset of these movements are visually depictive and semantically linked to specific spoken words. Current multimodal models struggle to capture these semantic co-speech gestures, heavily bottlenecked by a lack of precisely annotated training data. To address this, we introduce the Gesture Recognition in the Wild (GRW) dataset, the first large-scale benchmark designed to map unconstrained human gestures to specific words with frame-accurate temporal boundaries. Comprising 156,688 manually annotated video clips, GRW spans a highly diverse 150-word taxonomy of physical actions, spatial descriptors, and abstract concepts. We leverage GRW to train video models to (a) classify gestures as semantic or not, (b) recognize the word corresponding to a co-speech gesture, and (c) temporally localize the gesture. We also use GRW to establish benchmarks for these three tasks.

翻译：尽管人类在说话时自然会做出手势，但只有其中一小部分动作具有视觉描绘性，并与特定的口语词汇存在语义关联。当前的多模态模型难以捕捉这些语义性伴随语音手势，主要受限于缺乏精确标注的训练数据。为解决这一问题，我们提出了“野外手势识别”（Gesture Recognition in the Wild, GRW）数据集，这是首个旨在将非约束性人类手势与特定词汇建立帧精确时间边界映射的大规模基准数据集。GRW包含156,688个手动标注的视频片段，覆盖涵盖物理动作、空间描述词及抽象概念的高度多样化150词分类体系。我们利用GRW训练视频模型，使其能够：(a) 区分手势是否具有语义性，(b) 识别伴随语音手势对应的词汇，以及(c) 对手势进行时间定位。同时，我们基于GRW为上述三项任务建立了基准评测体系。

相关内容

MoDELS

关注 45

ACM/IEEE第23届模型驱动工程语言和系统国际会议，是模型驱动软件和系统工程的首要会议系列，由ACM-SIGSOFT和IEEE-TCSE支持组织。自1998年以来，模型涵盖了建模的各个方面，从语言和方法到工具和应用程序。模特的参加者来自不同的背景，包括研究人员、学者、工程师和工业专业人士。MODELS 2019是一个论坛，参与者可以围绕建模和模型驱动的软件和系统交流前沿研究成果和创新实践经验。今年的版本将为建模社区提供进一步推进建模基础的机会，并在网络物理系统、嵌入式系统、社会技术系统、云计算、大数据、机器学习、安全、开源等新兴领域提出建模的创新应用以及可持续性。官网链接：http://www.modelsconference.org/

【博士论文】面向真实世界音视联合语音识别的可扩展框架

专知会员服务

13+阅读 · 2025年12月19日

【博士论文】基于视觉的手语处理：识别、翻译与生成

专知会员服务

13+阅读 · 2025年3月3日

【博士论文】学习视觉-语言表示以实现多模态理解

专知会员服务

28+阅读 · 2025年2月8日

【牛津大学博士论文】使用多模态学习的手语理解，259页pdf

专知会员服务

20+阅读 · 2024年9月14日