We describe AlignAtt4LLM, an IWSLT 2026 simultaneous speech translation system for English to German, Italian, and Chinese. The system is a synchronous cascade: Qwen3-ASR with forced alignment produces an incrementally updated source transcript, and Gemma-4 E4B-it translates that prefix under an MT-side AlignAtt policy. To our knowledge, this is the first application of AlignAtt to a decoder-only LLM, where the encoder-decoder cross-attention used by earlier AlignAtt systems is absent. We recover a usable policy by proposing (1) an explicit source span in the prompt, (2) offline selection of translation-specific alignment heads, (3) selective qk-fast replay of the draft-to-source attention block, and (4) runtime query/key capture that preserves model outputs bit-identically. On the IWSLT 2026 development set, AlignAtt4LLM outperforms the supplied baselines for the European target languages, English to German and English to Italian, in both the low-latency regime around 2 seconds and the high-latency regime below 4 seconds CU-LongYAAL. Results for English to Chinese are more mixed, but the method is not tied to Gemma-4: because AlignAtt4LLM only requires a deterministic prompt layout, calibrated attention heads, and query/key capture, the same policy can be reapplied to stronger translation-focused decoder-only MT backbones for non-European target languages.


翻译:我们介绍了AlignAtt4LLM,这是一个用于IWSLT 2026英语到德语、意大利语和汉语同声传译任务的系统。该系统采用同步级联架构:配备强制对齐功能的Qwen3-ASR模型增量式地生成源语言转录文本,而Gemma-4 E4B-it模型则在机器翻译端应用AlignAtt策略,对当前前缀进行翻译。据我们所知,这是首次将AlignAtt应用于仅有解码器的大语言模型,而此前AlignAtt系统所使用的编码器-解码器交叉注意力机制在此类模型中并不存在。我们通过提出以下方法恢复了可用的细化策略:(1)在提示中显式标注源语言跨度,(2)离线选择面向翻译的对齐注意力头,(3)对草稿到源语言注意力块进行选择性qk快速重放,以及(4)在运行时捕获查询/键以按位一致地保留模型输出。在IWSLT 2026开发集上,针对欧洲目标语言(即英语到德语和英语到意大利语),AlignAtt4LLM在约2秒的低延迟场景和低于4秒CU-LongYAAL的高延迟场景中均优于所提供的基线模型。英语到汉语的结果则较为混杂,但该方法并不局限于Gemma-4模型:由于AlignAtt4LLM仅需要确定性的提示布局、经过校准的注意力头以及查询/键捕获,相同的策略可重新应用于针对非欧洲目标语言的、更强且专注于翻译的仅有解码器机器翻译骨干网络。

0
下载
关闭预览

相关内容

通过计算机进行不同语言之间的直接语音翻译,辅助不同语言背景的人们进行沟通已经成为世界各国研究的重点。 和一般的文本翻译不同,语音翻译需要把语音识别、机器翻译和语音合成三大技术进行集成,具有很大的挑战性。
Phi-4:微软最新的小型语言模型,专注于复杂推理
专知会员服务
25+阅读 · 2024年12月14日
推荐系统与大语言模型技术融合:EMNLP/NeurIPS相关论文导览
Llama-3-SynE:实现有效且高效的大语言模型持续预训练
专知会员服务
36+阅读 · 2024年7月30日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员