Recent work on Speech-to-Text Translation (S2TT) has focused on LLM-based models, introducing the increasingly adopted Chain-of-Thought (CoT) prompting, where the model is guided to first transcribe the speech and then translate it. CoT typically outperforms direct prompting primarily because it can exploit abundant Automatic Speech Recognition (ASR) and Text-to-Text Translation (T2TT) datasets to explicitly model its steps. In this paper, we systematically compare CoT and Direct prompting under increasing amounts of S2TT data. To this end, we pseudo-label an ASR corpus by translating its transcriptions into six European languages, and train LLM-based S2TT systems with both prompting strategies at different data scales. Our results show that Direct improves more consistently as the amount of data increases, suggesting that it may become a more effective approach as larger S2TT resources are created.


翻译:近期语音到文本翻译的研究聚焦于基于大语言模型的系统,引入了日益流行的思维链提示方法,即引导模型先转录语音再进行翻译。思维链方法通常优于直接提示,主要因其能够利用丰富的自动语音识别和文本到文本翻译数据集来显式建模翻译步骤。本文系统比较了在不同规模语音翻译数据下思维链与直接提示的性能差异。为此,我们通过将自动语音识别语料的转录文本翻译为六种欧洲语言来构建伪标注数据集,并基于不同数据规模训练采用两种提示策略的大语言模型语音翻译系统。实验结果表明,随着数据量增加,直接提示方法的性能提升更为稳定,这表明随着更大规模语音翻译资源的创建,直接提示可能成为更有效的实现路径。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
端到端语音到语音翻译的优化方法综述
专知会员服务
7+阅读 · 2025年6月10日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
语音识别的前沿论文,看我们推荐的这4篇
人工智能前沿讲习班
26+阅读 · 2019年1月14日
神经网络机器翻译原理:LSTM、seq2seq到Zero-Shot
北京思腾合力科技有限公司
11+阅读 · 2017年8月10日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
端到端语音到语音翻译的优化方法综述
专知会员服务
7+阅读 · 2025年6月10日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
扩展英语大语言模型到新语言的综述
专知会员服务
18+阅读 · 2024年8月15日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
大型语言模型的高效提示方法综述
专知会员服务
75+阅读 · 2024年4月2日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
微软《神经语音合成》综述论文,63页pdf530篇文献
专知会员服务
30+阅读 · 2021年7月3日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员