LLM post-training involves many diverse datasets, each targeting a specific behavior. But these datasets encode incidental patterns alongside intended ones: correlations between formatting and content, narrow phrasings across diverse problems, and implicit associations arising from the discrete data curation process. These patterns are often invisible to developers yet salient to models, producing behaviors that surprise their creators, such as rejecting true facts presented in a particular question format. We call this chunky post-training: the model learns spurious correlations as a result of distinct chunks of post-training data. We introduce SURF, a black-box pipeline which surfaces these unintended behaviors at run time, and TURF, a tool that traces these failures back to specific post-training data. Applying these tools to frontier models (Claude 4.5, GPT-5.1, Grok 4.1, Gemini 3) and open models (Tülu 3), we show that chunky post-training produces miscalibrated behaviors, which often result from imbalanced or underspecified chunks of post-training data.


翻译:LLM后训练涉及众多不同的数据集,每个数据集都针对特定的行为目标。但这些数据集在编码预期模式的同时,也编码了偶然性模式:格式与内容之间的相关性、多样化问题中狭窄的措辞表达,以及离散数据整理过程产生的隐性关联。这些模式对开发者往往不可见,但对模型却十分显著,从而产生令创造者惊讶的行为,例如拒绝以特定问题格式呈现的真实事实。我们将这种现象称为块状后训练:模型因后训练数据中不同的数据块而学习到虚假相关性。我们提出了SURF——一种在运行时浮现这些非预期行为的黑盒流程,以及TURF——一种将这些失效追溯至特定后训练数据的工具。通过对前沿模型(Claude 4.5、GPT-5.1、Grok 4.1、Gemini 3)和开源模型(Tülu 3)应用这些工具,我们证明块状后训练会导致校准失准的行为,这些行为通常源于后训练数据中不平衡或未充分指定的数据块。

0
下载
关闭预览

相关内容

大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
什么是后训练?大语言模型训练后优化方法综述,87页pdf
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
《大语言模型的数据合成与增强综述》
专知会员服务
43+阅读 · 2024年10月19日
大规模语言模型在分布式基础设施上的高效训练:综述
专知会员服务
27+阅读 · 2024年7月30日
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关资讯
一大批中文(BERT等)预训练模型等你认领!
PaperWeekly
15+阅读 · 2019年6月25日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员