Recent strategies for low-resource machine translation rely on LLMs to generate synthetic data from higher-resource languages. We find that this method fails for Romansh, because LLMs tend to confuse its 6 distinct language varieties. Our experiments show that instead, the direction of data augmentation should be aligned with the resource gradient between source and target language. This approach surpasses Gemini 3 Pro in the lowest-resource variety of Romansh by 23 BLEU. A human evaluation confirms that our experiments yield the first model that generates fluent translations in the individual Romansh varieties.


翻译:摘要:近期面向低资源机器翻译的策略依赖大语言模型从高资源语言生成合成数据。我们发现该方法在罗曼什语上失效,原因是LLM容易混淆其6种不同语言变体。实验表明,数据增强的方向应与源语言与目标语言之间的资源梯度对齐。该方案在罗曼什语最低资源变体上以23 BLEU值超越Gemini 3 Pro。人工评估证实,我们的实验生成了首个能生成各罗曼什语变体流畅翻译的模型。

0
下载
关闭预览

相关内容

数据增强在机器学习领域多指采用一些方法(比如数据蒸馏,正负样本均衡等)来提高模型数据集的质量,增强数据。
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大语言模型的幻觉问题研究综述
专知会员服务
44+阅读 · 2024年12月25日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
0+阅读 · 4分钟前
21世纪的无人机战争
专知会员服务
1+阅读 · 59分钟前
《量子技术的军事任务技术适配与利用》
专知会员服务
1+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
大语言模型的幻觉问题研究综述
专知会员服务
44+阅读 · 2024年12月25日
大语言模型的因果性
专知会员服务
40+阅读 · 2024年10月22日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员