In this study, we investigate how language models develop preferences for \textit{idiomatic} as compared to \textit{linguistically acceptable} Swedish, both during pretraining and when adapting a model from English to Swedish. To do so, we train models on Swedish from scratch and by fine-tuning English-pretrained models, probing their preferences at various checkpoints using minimal pairs that differ in linguistic acceptability or idiomaticity. For linguistic acceptability, we adapt existing benchmarks into a minimal-pair format. To assess idiomaticity, we introduce two novel datasets: one contrasting conventionalized idioms with plausible variants, and another contrasting idiomatic Swedish with Translationese. Our findings suggest that idiomatic competence emerges more slowly than other linguistic abilities, including grammatical and lexical correctness. While longer training yields diminishing returns for most tasks, idiom-related performance continues to improve, particularly in the largest model tested (8B). However, instruction tuning on data machine-translated from English -- the common approach for languages with little or no native instruction data -- causes models to rapidly lose their preference for idiomatic language.


翻译:本研究探讨了语言模型在预训练阶段以及从英语适应至瑞典语的过程中,如何形成对瑞典语中**习语性**表达相较于**语言可接受性**表达的偏好。为此,我们通过从头训练瑞典语模型以及对英语预训练模型进行微调两种方式,在不同训练检查点上使用在语言可接受性或习语性上存在差异的最小对来探测模型的偏好。针对语言可接受性,我们将现有基准数据集改编为最小对形式。为评估习语性,我们引入了两个新颖的数据集:一个对比常规化习语与其合理变体,另一个对比地道的瑞典语与翻译腔。我们的研究结果表明,习语能力的形成速度慢于其他语言能力,包括语法和词汇的正确性。虽然更长时间的训练对大多数任务带来的收益递减,但与习语相关的性能持续提升,尤其是在测试的最大模型(80亿参数)中。然而,在从英语机器翻译的数据上进行指令微调——这是针对缺乏或没有母语指令数据语言的常见方法——会导致模型迅速丧失对地道语言的偏好。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
白话attention综述(上)
AINLP
12+阅读 · 2019年12月14日
赛尔笔记 | 自然语言处理中的迁移学习(上)
哈工大SCIR
16+阅读 · 2019年10月17日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大规模语言模型的人类偏好学习综述
专知会员服务
42+阅读 · 2024年6月19日
【博士论文】语言模型与人类偏好对齐,148页pdf
专知会员服务
32+阅读 · 2024年4月21日
相关资讯
多模态视觉语言表征学习研究综述
专知
27+阅读 · 2020年12月3日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
白话attention综述(上)
AINLP
12+阅读 · 2019年12月14日
赛尔笔记 | 自然语言处理中的迁移学习(上)
哈工大SCIR
16+阅读 · 2019年10月17日
强化学习三篇论文 避免遗忘等
CreateAMind
20+阅读 · 2019年5月24日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
学会原创 | 自然语言的语义表示学习方法与应用
中国人工智能学会
11+阅读 · 2019年3月7日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员