Sign language generation (SLG) aims to translate written texts into expressive sign motions, bridging communication barriers for the Deaf and Hard-of-Hearing communities. Recent studies formulate SLG within the language modeling framework using autoregressive language models, which suffer from unidirectional context modeling and slow token-by-token inference. To address these limitations, we present MaDiS, a masked-diffusion-based language model for SLG that captures bidirectional dependencies and supports efficient parallel multi-token generation. We further introduce a tri-level cross-modal pretraining scheme that jointly learns from token-, latent-, and 3D physical-space objectives to leverage complementary, multi-level sign representations. To accelerate model convergence in the fine-tuning stage, we design a novel unmasking strategy with temporal checkpoints, which restructures generation in a coarse-to-fine manner and reduces the combinatorial complexity of unmasking orders by over $10^{41}$ times. In addition, a mixture-of-parts embedding layer is developed to effectively fuse information stored in different part-wise sign tokens through a learnable gate and well-optimized codebooks. Extensive experiments on CSL-Daily, Phoenix-2014T, and How2Sign demonstrate that MaDiS achieves superior performance across multiple metrics, including DTW error and two newly introduced metrics, SiBLEU and SiCLIP, while delivering a 40\% higher throughput. Code and models will be publicly released.


翻译:手语生成(SLG)旨在将书面文本转化为富有表现力的手语动作,从而为聋哑及听力障碍群体消除沟通障碍。近期研究采用自回归语言模型在语言建模框架内构建SLG系统,但此类模型存在上下文建模单向性及逐令牌推理速度缓慢的局限。为克服这些缺陷,本文提出MaDiS——一种基于掩码扩散的手语生成语言模型,该模型能够捕获双向依赖关系并支持高效的并行多令牌生成。我们进一步提出三层次跨模态预训练方案,通过联合学习令牌空间、潜在空间与三维物理空间目标,充分利用互补的多层次手语表征。为加速微调阶段的模型收敛,我们设计了具有时序检查点的新型去掩码策略,以由粗到细的方式重构生成过程,将去掩码顺序的组合复杂度降低超过$10^{41}$倍。此外,开发了部件混合嵌入层,通过可学习门控机制与优化码本有效融合存储在不同部件手语令牌中的信息。在CSL-Daily、Phoenix-2014T和How2Sign数据集上的大量实验表明,MaDiS在DTW误差及两个新指标SiBLEU与SiCLIP等多项评估中均取得优越性能,同时实现40%的吞吐量提升。代码与模型将公开发布。

0
下载
关闭预览

相关内容

【普林斯顿博士论文】用于语音的生成式通用模型
专知会员服务
19+阅读 · 2025年12月3日
扩散语言模型综述
专知会员服务
19+阅读 · 2025年8月15日
【博士论文】基于视觉的手语处理:识别、翻译与生成
专知会员服务
13+阅读 · 2025年3月3日
专知会员服务
65+阅读 · 2021年5月29日
【EMNLP2020】自然语言生成,Neural Language Generation
专知会员服务
39+阅读 · 2020年11月20日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
强化学习与文本生成
微信AI
41+阅读 · 2019年4月4日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
《图世界模型:概念、分类体系与未来方向》
专知会员服务
2+阅读 · 5月1日
Palantir AIP平台:连接智能体与决策
专知会员服务
9+阅读 · 5月1日
《美海军软件测试战略》90页slides
专知会员服务
8+阅读 · 5月1日
面向具身智能与机器人仿真的三维生成:综述
专知会员服务
9+阅读 · 4月30日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员