Large language models (LLMs) can be benchmark-contaminated, resulting in inflated scores that mask memorization as generalization, and in multilingual settings, this memorization can even transfer to "uncontaminated" languages. Using the FLORES-200 translation benchmark as a diagnostic, we study two 7-8B instruction-tuned multilingual LLMs: Bloomz, which was trained on FLORES, and Llama as an uncontaminated control. We confirm Bloomz's FLORES contamination and demonstrate that machine translation contamination can be cross-directional, artificially boosting performance in unseen translation directions due to target-side memorization. Further analysis shows that recall of memorized references often persists despite various source-side perturbation efforts like paraphrasing and named entity replacement. However, replacing named entities leads to a consistent decrease in BLEU, suggesting an effective probing method for memorization in contaminated models.


翻译:大型语言模型(LLMs)可能存在基准测试污染,导致评分虚高,使记忆行为被掩盖为泛化能力;在多语言场景中,这种记忆效应甚至会迁移至"未受污染"的语言。本研究以FLORES-200翻译基准作为诊断工具,考察了两个经指令微调的7-8B参数多语言LLM:在FLORES数据上训练过的Bloomz模型,以及作为未污染对照组的Llama模型。我们证实了Bloomz存在FLORES数据污染,并证明机器翻译污染可能具有跨方向性——由于目标端记忆效应,模型在未见过的翻译方向上也会出现性能虚高。进一步分析表明,即使对源语言进行多种干扰(如复述改写和命名实体替换),模型对记忆参考译文的召回依然持续存在。然而,命名实体替换会导致BLEU评分系统性下降,这为检测污染模型的记忆效应提供了一种有效的探测方法。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
天大最新《大型语言模型评估》全面综述,111页pdf
专知会员服务
88+阅读 · 2023年10月31日
NLG任务评价指标BLEU与ROUGE
AINLP
21+阅读 · 2020年5月25日
NLP 与 NLU:从语言理解到语言处理
AI研习社
15+阅读 · 2019年5月29日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
BEADs: Bias Evaluation Across Domains
Arxiv
0+阅读 · 2月19日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员