Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training - 专知论文

会员服务 ·

0

预训练 · 系统 · 协同 · 协同演化 · 构建 ·

Data Darwinism Part I: Unlocking the Value of Scientific Data for Pre-training

翻译：数据达尔文主义第一部分：释放科学数据在预训练中的价值

Yiwei Qin,Zhen Huang,Tiantian Mi,Weiye Si,Chenyang Zhou,Qipeng Guo,Siyuan Feng,Pengfei Liu

Data quality determines foundation model performance, yet systematic processing frameworks are lacking. We introduce Data Darwinism, a ten-level taxonomy (L0-L9) that conceptualizes data-model co-evolution: advanced models produce superior data for next-generation systems. We validate this on scientific literature by constructing Darwin-Science, a 900B-token corpus (L0-L5). We identify a learnability gap in raw scientific text, which we bridge via L4 (Generative Refinement) and L5 (Cognitive Completion) using frontier LLMs to explicate reasoning and terminology. To ensure rigorous attribution, we pre-trained daVinci-origin-3B/7B models from scratch, excluding scientific content to create contamination-free baselines. After 600B tokens of continued pre-training, Darwin-Science outperforms baselines by +2.12 (3B) and +2.95 (7B) points across 20+ benchmarks, rising to +5.60 and +8.40 points on domain-aligned tasks. Systematic progression to L5 yields a +1.36 total gain, confirming that higher-level processing unlocks latent data value. We release the Darwin-Science corpus and daVinci-origin models to enable principled, co-evolutionary development.

翻译：数据质量决定基础模型性能，但当前缺乏系统化的处理框架。我们提出数据达尔文主义，这是一个十级分类体系（L0-L9），用于概念化数据与模型的协同演化：先进模型能为下一代系统生成更优质的数据。我们通过在科学文献领域构建包含900B词元的达尔文-科学语料库（L0-L5）验证了这一理论。我们发现原始科学文本存在可学习性鸿沟，并利用前沿大语言模型通过L4（生成式精炼）和L5（认知补全）两个层级来显式化推理过程与术语体系，从而弥合这一差距。为确保严谨的归因分析，我们从零开始预训练了daVinci-origin-3B/7B模型，并排除所有科学内容以构建无污染基线。经过600B词元的持续预训练后，达尔文-科学模型在20余项基准测试中分别以+2.12（3B）和+2.95（7B）分的优势超越基线模型，在领域对齐任务上的优势进一步扩大至+5.60和+8.40分。系统化推进至L5层级可带来+1.36分的综合增益，证实了高层级数据处理能释放潜在数据价值。我们开源达尔文-科学语料库及daVinci-origin模型，以促进基于原则的协同演化研究。

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

数据质量维度的实践展开：一项综述

数据质量维度的实践展开：一项综述

专知会员服务

20+阅读 · 2025年7月28日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

《军事决策中的数据科学：文献综述》2022荷兰皇家空军、荷兰国防学院40页长论文

《军事决策中的数据科学：文献综述》2022荷兰皇家空军、荷兰国防学院40页长论文

专知会员服务

70+阅读 · 2023年1月4日

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

专知会员服务

34+阅读 · 2022年5月23日

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

专知会员服务

27+阅读 · 2022年3月24日

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

专知会员服务

59+阅读 · 2021年9月11日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

专知会员服务

25+阅读 · 2020年3月15日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

54+阅读 · 2022年4月25日

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

专知

29+阅读 · 2020年3月24日

训练数据多少才够用

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

深度学习与NLP

14+阅读 · 2018年12月30日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

专栏 | 技术干货：一文详解LDA主题模型

专栏 | 技术干货：一文详解LDA主题模型

机器之心

28+阅读 · 2017年12月1日

达观数据NLP技术的应用实践和案例分析

达观数据NLP技术的应用实践和案例分析

数据挖掘入门与实战

10+阅读 · 2017年7月27日

基于LDA的主题模型实践（一）

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月11日

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Arxiv

0+阅读 · 3月8日

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月8日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining

Arxiv

0+阅读 · 2月23日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models

Arxiv

0+阅读 · 2月15日

Beyond Text-to-SQL: Autonomous Research-Driven Database Exploration with DAR

Arxiv

0+阅读 · 2月9日

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Arxiv

0+阅读 · 2月4日

Data Agents: Levels, State of the Art, and Open Problems

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

1+阅读 · 39分钟前

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

3+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

3+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

5+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

5+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

4+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

5+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

12+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

4+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

4+阅读 · 4月24日

相关VIP内容

数据质量维度的实践展开：一项综述

数据质量维度的实践展开：一项综述

专知会员服务

20+阅读 · 2025年7月28日

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

《军事决策中的数据科学：文献综述》2022荷兰皇家空军、荷兰国防学院40页长论文

《军事决策中的数据科学：文献综述》2022荷兰皇家空军、荷兰国防学院40页长论文

专知会员服务

70+阅读 · 2023年1月4日

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

小数据如何学习？佐治亚理工杨笛一等《有限文本数据学习》ACL2022教程，阐述最新前沿技术，附Slides

专知会员服务

34+阅读 · 2022年5月23日

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

【开放书】《大数据价值的要素》，411页pdf，Elements of big data value

专知会员服务

27+阅读 · 2022年3月24日

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

数据科学导论，722页pdf，讲述带R的数据分析与预测算法

专知会员服务

59+阅读 · 2021年9月11日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

【WWW2020-腾讯】未来的数据有助于训练:为基于会话的推荐建立未来的上下文模型，Future Data Helps Training: Modelling Future Contexts for Session-based Recommendation

专知会员服务

25+阅读 · 2020年3月15日

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

【CHI2020-微软】解释可解释性:理解数据科学家使用机器学习的可解释性工具，Interpreting Interpretability: Understanding Data Scientists’Use of Interpretability Tools for Machine Learning

专知会员服务

55+阅读 · 2020年3月8日

热门VIP内容

开通专知VIP会员享更多权益服务

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《军事模拟：将军事条令与目标融入AI智能体》

非对称优势：美海军开发低成本反无人机技术

《美战争部小企业创新研究（SBIR）计划》

相关资讯

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

54+阅读 · 2022年4月25日

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

【干货书】使用Python进行高级数据分析，195页pdf，以机器学习、深度学习和NLP为例

专知

29+阅读 · 2020年3月24日

训练数据多少才够用

训练数据多少才够用

专知

16+阅读 · 2019年5月4日

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

实战经验分享-少量数据NLP场景下进行深度学习训练的建议

深度学习与NLP

14+阅读 · 2018年12月30日

最全数据科学学习资源：Python、线性代数、机器学习...

最全数据科学学习资源：Python、线性代数、机器学习...

人工智能头条

12+阅读 · 2018年5月14日

文本数据分析（二）：文本数据预处理的方法

文本数据分析（二）：文本数据预处理的方法

论智

16+阅读 · 2018年4月10日

专栏 | 技术干货：一文详解LDA主题模型

专栏 | 技术干货：一文详解LDA主题模型

机器之心

28+阅读 · 2017年12月1日

达观数据NLP技术的应用实践和案例分析

达观数据NLP技术的应用实践和案例分析

数据挖掘入门与实战

10+阅读 · 2017年7月27日

基于LDA的主题模型实践（一）

基于LDA的主题模型实践（一）

机器学习深度学习实战原创交流

20+阅读 · 2015年9月9日

相关论文

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月11日

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Arxiv

0+阅读 · 3月8日

SeDa: A Unified System for Dataset Discovery and Multi-Entity Augmented Semantic Exploration

Arxiv

0+阅读 · 3月8日

DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science

Arxiv

0+阅读 · 2月27日

Scaling Laws Revisited: Modeling the Role of Data Quality in Language Model Pretraining

Arxiv

0+阅读 · 2月23日

Benchmarking AI Performance on End-to-End Data Science Projects

Arxiv

0+阅读 · 2月15日

DALL: Data Labeling via Data Programming and Active Learning Enhanced by Large Language Models

Arxiv

0+阅读 · 2月15日

Beyond Text-to-SQL: Autonomous Research-Driven Database Exploration with DAR

Arxiv

0+阅读 · 2月9日

From Data to Behavior: Predicting Unintended Model Behaviors Before Training

Arxiv

0+阅读 · 2月4日

Data Agents: Levels, State of the Art, and Open Problems

Arxiv

0+阅读 · 2月4日

相关基金

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

大数据环境下基于量子计算的非结构化数据关键问题的研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于2-D空间离散数据的质量与产出的预测方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

上市公司文本信息分析研究：基于大数据的视角

国家自然科学基金

8+阅读 · 2014年12月31日

基于相关性的大数据分类理论与方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

接力创新中大数据价值的评估与分配研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员