Simultaneous speech translation produces target text incrementally from partial speech input. Recent speech large language models have markedly improved SST quality but still struggle with rare and domain-specific terminology. Retrieval augmentation has helped in automatic speech recognition and neural machine translation, but extending it to SST is non-trivial: retrieval must be fast and accurate under partial speech, and the model must decide whether and when to apply retrieved terms during incremental generation. We propose Retrieval-Augmented Simultaneous Speech Translation (RASST), which addresses both challenges. For accurate cross-modal retrieval under partial input, RASST trains a lightweight speech-text retriever that produces chunkwise terminology hints for the Speech LLM via multi-scale retrieval. To use these hints correctly, we synthesize training data that teaches the Speech LLM to decide whether and when to apply each retrieved term. Experiments on ACL 60/60 dev set and the ESO test set show that RASST improves terminology accuracy by nearly 40% and overall translation quality by up to 3 BLEU points, with negligible computational overhead.


翻译:同传语音翻译需基于部分语音输入逐步生成目标文本。近期语音大语言模型虽显著提升了同传语音翻译质量,但在处理罕见词及专业领域术语时仍存在困难。检索增强技术虽已应用于自动语音识别和神经机器翻译领域,但将其拓展至同传语音翻译面临两大挑战:在部分语音输入下需实现快速精准检索,且模型需在增量生成过程中自主决定是否及何时应用检索到的术语。为此,我们提出检索增强同传语音翻译(RASST)以应对上述挑战。针对部分输入下的跨模态精准检索需求,RASST通过多尺度检索机制训练轻量级语音-文本检索器,为语音大语言模型提供分块术语提示。为正确运用这些提示,我们通过合成训练数据引导语音大语言模型决策是否及何时应用每个检索术语。在ACL 60/60开发集和ESO测试集上的实验表明,RASST在几乎不增加计算开销的情况下,术语准确率提升近40%,整体翻译质量提升最高达3个BLEU值。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
EMNLP 2024 | 大语言模型的概念知识编辑
专知会员服务
21+阅读 · 2024年12月13日
白话attention综述(上)
AINLP
12+阅读 · 2019年12月14日
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月12日
Arxiv
10+阅读 · 2018年3月22日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
专知会员服务
3+阅读 · 今天7:28
消耗优势:美军的“精确规模化”概念
专知会员服务
7+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
8+阅读 · 6月15日
相关VIP内容
EMNLP 2024 | 大语言模型的概念知识编辑
专知会员服务
21+阅读 · 2024年12月13日
相关资讯
白话attention综述(上)
AINLP
12+阅读 · 2019年12月14日
基于RASA的task-orient对话系统解析(一)
AINLP
16+阅读 · 2019年8月27日
近期语音类前沿论文
深度学习每日摘要
14+阅读 · 2019年3月17日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
100+中文词向量,总有一款适合你
专知
12+阅读 · 2018年5月13日
基于 rasa 搭建中文对话系统 | 公开课
AI研习社
16+阅读 · 2018年1月12日
自然语言处理 (三) 之 word embedding
DeepLearning中文论坛
19+阅读 · 2015年8月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员