Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.


翻译:数据质量决定基础模型性能,但当前缺乏系统化的处理框架。我们提出数据达尔文主义,这是一个十级分类体系(L0-L9),用于概念化数据与模型的协同演化:先进模型能为下一代系统生成更优质的数据。我们通过在科学文献领域构建包含900B词元的达尔文-科学语料库(L0-L5)验证了这一理论。我们发现原始科学文本存在可学习性鸿沟,并利用前沿大语言模型通过L4(生成式精炼)和L5(认知补全)两个层级来显式化推理过程与术语体系,从而弥合这一差距。为确保严谨的归因分析,我们从零开始预训练了daVinci-origin-3B/7B模型,并排除所有科学内容以构建无污染基线。经过600B词元的持续预训练后,达尔文-科学模型在20余项基准测试中分别以+2.12(3B)和+2.95(7B)分的优势超越基线模型,在领域对齐任务上的优势进一步扩大至+5.60和+8.40分。系统化推进至L5层级可带来+1.36分的综合增益,证实了高层级数据处理能释放潜在数据价值。我们开源达尔文-科学语料库及daVinci-origin模型,以促进基于原则的协同演化研究。

0
下载
关闭预览

相关内容

在搭建网络模型时,需要随机初始化参数,然后开始训练网络,不断调整直到网络的损失越来越小。在训练的过程中,一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来,以便训练好的模型可以在下次执行类似任务时获得较好的结果。
数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
数据科学导论,722页pdf,讲述带R的数据分析与预测算法
专知会员服务
59+阅读 · 2021年9月11日
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
实战经验分享-少量数据NLP场景下进行深度学习训练的建议
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月13日
Arxiv
0+阅读 · 1月13日
VIP会员
相关VIP内容
数据质量维度的实践展开:一项综述
专知会员服务
20+阅读 · 2025年7月28日
数据科学导论,722页pdf,讲述带R的数据分析与预测算法
专知会员服务
59+阅读 · 2021年9月11日
相关资讯
训练数据多少才够用
专知
16+阅读 · 2019年5月4日
实战经验分享-少量数据NLP场景下进行深度学习训练的建议
最全数据科学学习资源:Python、线性代数、机器学习...
人工智能头条
12+阅读 · 2018年5月14日
专栏 | 技术干货:一文详解LDA主题模型
机器之心
28+阅读 · 2017年12月1日
达观数据NLP技术的应用实践和案例分析
数据挖掘入门与实战
10+阅读 · 2017年7月27日
基于LDA的主题模型实践(一)
机器学习深度学习实战原创交流
20+阅读 · 2015年9月9日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
25+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员