We introduce LuxMT, a machine translation system based on Gemma 3 27B and fine-tuned for translation from Luxembourgish (LB) into French (FR) and English (EN). To assess translation performance, we construct a novel benchmark covering LB-FR, LB-EN, and LB-FR using human-translated data from Luci, a tourist magazine about Luxembourg. Training data stems from LuxAlign, a parallel corpus of multilingual Luxembourgish news articles, and LB parliamentary transcripts augmented with Google Translate. We filter the data using LuxEmbedder, LB sentence embeddings, to remove low-equivalence segment-pairs. Overall, LuxMT's results suggest strong improvements over the Gemma 3 baseline, even for translating LB to German (DE), despite the training data not containing any DE. We also explore LuxEmbedder's potential to be used as a quality estimation metric and find strong correlations with other reference-based metrics. However, we call for further research to fully assess the metric's utility and advise using it with caution.


翻译:本文介绍LuxMT——一个基于Gemma 3 27B架构、专门针对卢森堡语(LB)到法语(FR)和英语(EN)翻译任务进行微调的机器翻译系统。为评估翻译性能,我们构建了一个涵盖LB-FR、LB-EN及LB-FR方向的新型评测基准,该基准采用卢森堡旅游杂志《Luci》的人工翻译数据。训练数据来源于多语言卢森堡语新闻平行语料库LuxAlign,以及通过谷歌翻译增强的卢森堡议会记录文本。我们使用卢森堡语句子嵌入模型LuxEmbedder对数据进行过滤,以去除等价性较低的句对。总体而言,LuxMT的实验结果表明,相较于Gemma 3基线模型,该系统在各项翻译任务中均取得显著提升——即使在训练数据未包含德语(DE)的情况下,其LB-DE翻译性能仍获得改善。我们还探索了将LuxEmbedder作为质量评估指标的潜力,发现其与基于参考译文的其他评估指标存在强相关性。然而,我们建议需开展进一步研究以全面评估该指标的实用性,并建议谨慎使用。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
《Llama 3大模型》技术报告中英文版,95页pdf
专知会员服务
107+阅读 · 2024年8月2日
《TextCycleGAN 技术报告》
专知会员服务
33+阅读 · 2023年5月4日
最新《Transformers》报告,Google Lucas Beyer 报告
专知会员服务
69+阅读 · 2022年9月13日
【PHM】NIST:PHM制造工艺流程技术和指标路线图
产业智能官
11+阅读 · 2019年1月13日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月19日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月15日
VIP会员
相关论文
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 2月4日
Arxiv
0+阅读 · 1月29日
Arxiv
0+阅读 · 1月19日
Arxiv
0+阅读 · 1月15日
Arxiv
0+阅读 · 1月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员