Neural Machine Translation (NMT) models for low-resource languages suffer significant performance degradation under domain shift. We quantify this challenge using Dhao, an indigenous language of Eastern Indonesia with no digital footprint beyond the New Testament (NT). When applied to the unseen Old Testament (OT), a standard NMT model fine-tuned on the NT drops from an in-domain score of 36.17 chrF++ to 27.11 chrF++. To recover this loss, we introduce a hybrid framework where a fine-tuned NMT model generates an initial draft, which is then refined by a Large Language Model (LLM) using Retrieval-Augmented Generation (RAG). The final system achieves 35.21 chrF++ (+8.10 recovery), effectively matching the original in-domain quality. Our analysis reveals that this performance is driven primarily by the number of retrieved examples rather than the choice of retrieval algorithm. Qualitative analysis confirms the LLM acts as a robust "safety net," repairing severe failures in zero-shot domains.


翻译:针对低资源语言的神经机器翻译(NMT)模型在面临领域偏移时,性能会出现显著下降。我们使用Dhao语(印度尼西亚东部的一种土著语言,除《新约》外无任何数字足迹)来量化这一挑战。当将基于《新约》微调的标准NMT模型应用于未见过的《旧约》时,其领域内得分从36.17 chrF++下降至27.11 chrF++。为弥补这一损失,我们引入了一种混合框架:首先由微调的NMT模型生成初始草稿,然后由大型语言模型(LLM)利用检索增强生成(RAG)技术对其进行精炼。最终系统达到了35.21 chrF++(恢复了+8.10),有效匹配了原有的领域内质量。我们的分析表明,该性能主要由检索到的示例数量驱动,而非检索算法的选择。定性分析证实,LLM充当了强大的“安全网”,修复了在零样本领域中出现的严重错误。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
专知会员服务
17+阅读 · 2021年4月16日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【Facebook AI】低资源机器翻译,74页ppt
专知
10+阅读 · 2020年4月8日
深度上下文词向量
微信AI
27+阅读 · 2018年9月13日
NLG ≠ 机器写作 | 专家专栏
量子位
13+阅读 · 2018年9月10日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员