Many SLT systems quietly assume that brief chunks of signing map directly to spoken-language words. That assumption breaks down because signers often create meaning on the fly using context, space, and movement. We revisit SLT and argue that it is mainly a cross-modal reasoning task, not just a straightforward video-to-text conversion. We thus introduce a reasoning-driven SLT framework that uses an ordered sequence of latent thoughts as an explicit middle layer between the video and the generated text. These latent thoughts gradually extract and organize meaning over time. On top of this, we use a plan-then-ground decoding method: the model first decides what it wants to say, and then looks back at the video to find the evidence. This separation improves coherence and faithfulness. We also built and released a new large-scale gloss-free SLT dataset with stronger context dependencies and more realistic meanings. Experiments across several benchmarks show consistent gains over existing gloss-free methods. Code and data will be released upon acceptance at https://github.com/fletcherjiang/SignThought.


翻译:许多手语翻译系统隐式假设手语中的短片段直接对应口语词汇。这一假设在实际中难以成立,因为手语者常通过上下文、空间和运动即时构建意义。本文重新审视手语翻译问题,指出其本质上是一种跨模态推理任务,而非简单的视频到文本转换。为此,我们提出一种基于推理的手语翻译框架,该框架在视频和生成文本之间引入有序的潜思序列作为显式中间层,这些潜思随时间逐步提取和组织语义信息。在此基础上,我们采用"计划-验证"解码方法:模型首先决定表达内容,再回溯视频寻找证据。这种分离机制增强了生成文本的连贯性和忠实度。我们还构建并发布了一个全新的无标注大规模手语翻译数据集,具有更强的上下文依赖性和更真实的多义表达。在多个基准测试上的实验表明,该方法相较于现有无标注方法持续取得显著提升。代码与数据集将在论文接收后于https://github.com/fletcherjiang/SignThought公开。

0
下载
关闭预览

相关内容

端到端语音到语音翻译的优化方法综述
专知会员服务
8+阅读 · 2025年6月10日
【博士论文】基于视觉的手语处理:识别、翻译与生成
专知会员服务
13+阅读 · 2025年3月3日
基于深度学习的手语识别综述
专知会员服务
47+阅读 · 2020年5月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
【翻译技术速递】测评:免费的术语抽取工具
翻译技术沙龙
139+阅读 · 2019年11月2日
清华大学:刘洋——基于深度学习的机器翻译
人工智能学家
12+阅读 · 2017年11月13日
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
综述 | 从问答到任务完成:Agent系统与Harness设计
专知会员服务
0+阅读 · 34分钟前
Agentic RL:框架、实践与长程智能体训练
专知会员服务
0+阅读 · 36分钟前
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
3+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员