High-quality training data is essential to large language models (LLMs) and typically requires extensive and costly manual curation. Existing automatic data preparation methods rely on predefined pipelines or customized human instructions, which limits their adaptability to diverse data distributions and lacks principled guidance from high-quality examples. In this paper, we introduce DataEvolver, the first self-evolving data preparation system that automatically constructs pipelines to transform raw data into high-quality data. DataEvolver employs a multi-level mechanism to ensure both pipeline executability and effectiveness. At the operator level, it incrementally expands the operator set to construct a logical plan while resolving dependency conflicts. At the pipeline level, it instantiates logical plans into executable code and iteratively refines pipeline orchestration through a feedback loop that reduces the distribution gap between prepared data and high-quality examples. Experiments on seven benchmarks show that DataEvolver substantially improves data quality and achieves an average 10\% gain in downstream LLM performance compared with training on original data, highlighting new opportunities for the iterative co-evolution of LLMs and data.


翻译:摘要:高质量训练数据对于大语言模型至关重要,且通常需要大量昂贵的人工筛选过程。现有自动化数据制备方法依赖预定义流水线或定制化人工指令,这限制了其对多样化数据分布的适应性,且缺乏来自高质量样本的原则性指导。本文提出DataEvolver——首个自进化数据制备系统,可自动构建流水线将原始数据转化为高质量数据。DataEvolver采用多层级机制确保流水线的可执行性与有效性:在算子层级,系统通过增量扩展算子集合构建逻辑计划同时解决依赖冲突;在流水线层级,系统将逻辑计划实例化为可执行代码,并通过反馈循环迭代优化流水线编排,以缩小制备数据与高质量样本间的分布差距。在七个基准上的实验表明,相较于基于原始数据的训练,DataEvolver显著提升数据质量,并使下游大语言模型性能平均提升10%,为语言模型与数据的迭代协同进化开辟了新途径。

0
下载
关闭预览

相关内容

从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
大数据分析研究组开源Easy Machine Learning系统
中国科学院网络数据重点实验室
17+阅读 · 2017年6月13日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
17+阅读 · 2023年12月4日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
从数据中心视角出发的高效大语言模型训练综述
专知会员服务
23+阅读 · 2025年10月31日
【博士论文】面向数据的语言生成模型研究
专知会员服务
24+阅读 · 2025年1月19日
大语言模型训练数据
专知会员服务
72+阅读 · 2024年11月22日
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
数据与多模态大型语言模型的协同作用综述
专知会员服务
59+阅读 · 2024年7月13日
大模型如何迭代?北大等《大型语言模型自我进化》综述
《大模型数据增强》综述
专知会员服务
117+阅读 · 2024年1月30日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员