High-quality training data is essential to large language models (LLMs) and typically requires extensive and costly manual curation. Existing automatic data preparation methods rely on predefined pipelines or customized human instructions, which limits their adaptability to diverse data distributions and lacks principled guidance from high-quality examples. In this paper, we introduce DataEvolver, the first self-evolving data preparation system that automatically constructs pipelines to transform raw data into high-quality data. DataEvolver employs a multi-level mechanism to ensure both pipeline executability and effectiveness. At the operator level, it incrementally expands the operator set to construct a logical plan while resolving dependency conflicts. At the pipeline level, it instantiates logical plans into executable code and iteratively refines pipeline orchestration through a feedback loop that reduces the distribution gap between prepared data and high-quality examples. Experiments on seven benchmarks show that DataEvolver substantially improves data quality and achieves an average 10\% gain in downstream LLM performance compared with training on original data, highlighting new opportunities for the iterative co-evolution of LLMs and data.


翻译:摘要:高质量训练数据对大语言模型至关重要,但通常需要大量且昂贵的人工标注。现有自动数据准备方法依赖预定义流程或人工指令,难以适应多样化的数据分布,且缺乏高质量示例的准则化指导。本文提出DataEvolver——首个自进化数据准备系统,可自动构建数据流水线将原始数据转化为高质量数据。该系统采用多层机制确保流水线的可执行性与有效性:在算子层级,通过增量扩展算子集构建逻辑计划并解决依赖冲突;在流水线层级,将逻辑计划实例化为可执行代码,并基于反馈循环迭代优化流水线编排,以缩小生成数据与高质量示例之间的分布差距。在七个基准测试中的实验表明,相较于原始数据训练,DataEvolver显著提升数据质量,并使下游大语言模型性能平均提升10%,彰显了大语言模型与数据迭代共进的新可能。

0
下载
关闭预览

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
17+阅读 · 2023年12月4日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
多模态大语言模型的自我改进:综述
专知会员服务
28+阅读 · 2025年10月8日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员