Large Language Models (LLMs) have revolutionized various fields, yet their training efficiency is heavily reliant on effective data curation. While data selection has been widely studied, the strategic data organization for enhanced training remains an underexplored area, particularly since current LLMs are often trained for only one or a few epochs. This paper systematically explores the influence of data organization on LLM training by reusing pre-computed sample-level scores originally generated for data efficiency, thereby incurring minimal additional computational overhead. We identify and formalize four key guidelines for optimizing data organization: Boundary Sharpening, Cyclic Scheduling, Curriculum Continuity, and Local Diversity. Guided by them, we introduce two novel data ordering methods termed STR and SAW. Extensive experiments across different model scales and data sizes, encompassing both pre-training and SFT stages, validate the effectiveness of our summarized guidelines. They also demonstrate the robustness of our proposed data ordering methods in enhancing the stability and performance of LLM training. Github Link: https://github.com/microsoft/data-efficacy/


翻译:大语言模型(LLM)已深刻变革诸多领域,但其训练效率高度依赖有效的数据整理。尽管数据选择方法已得到广泛研究,但针对训练效率提升的战略性数据组织仍是一个亟待探索的领域,尤其是在当前LLM通常仅训练一个或少数轮次的背景下。本文通过复用为数据效率预先生成的样本级评分,以极小额外计算开销为代价,系统探究了数据组织对LLM训练的影响。我们识别并形式化了优化数据组织的四项关键准则:边界锐化、循环调度、课程连续性与局部多样性。基于这些准则,我们提出了两种新颖的数据排序方法:STR与SAW。涵盖不同模型尺度与数据规模的大量实验(包括预训练与SFT阶段)验证了所总结准则的有效性,同时证明了所提数据排序方法在增强LLM训练稳定性与性能方面的稳健性。GitHub链接:https://github.com/microsoft/data-efficacy/

0
下载
关闭预览

相关内容

什么是后训练?大语言模型训练后优化方法综述,87页pdf
LLM后训练:深入探讨推理大语言模型
专知会员服务
40+阅读 · 2025年3月3日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
大型语言模型增强强化学习综述:概念、分类和方法
专知会员服务
57+阅读 · 2024年4月4日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
【白皮书】从头训练大型语言模型LLM最佳实践
专知会员服务
150+阅读 · 2023年8月24日
【MIT博士论文】数据高效强化学习,176页pdf
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月11日
Arxiv
0+阅读 · 5月28日
Arxiv
17+阅读 · 2023年12月4日
VIP会员
最新内容
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
0+阅读 · 21分钟前
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员