【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用 - 专知VIP

会员服务 ·

6

基础模型训练 · 数据利用 ·

【CMU博士论文】Web 尺度数据在基础模型训练中的负责任且高效利用

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

基础模型——即在 Web 尺度数据上训练的大型神经网络——已经彻底改变了人工智能领域，但其对海量互联网语料的利用引发了两项严峻挑战。首先是负责任的数据利用：模型有时会记忆并复现敏感信息或受版权保护的内容，从而带来隐私泄露与法律风险。因此，确保训练数据的准确归因以及实现事后（post-hoc）卸载特定数据能力变得至关重要。其次是高效的数据利用：在高质量 Web 数据日益稀缺的背景下，不加区别地扩大数据与模型规模会导致计算成本难以承受。必须通过科学的数据策展（Curation）与增强技术来提升训练效率。

本论文通过围绕两大主题的创新贡献解决了上述挑战：(1) 理解并缓解基础模型中的记忆现象；(2) 大规模环境下数据质量与训练效率的提升。在主题 (1) 中，我们开发了将模型输出归因至训练数据的技术，检测并定位模型参数中存储的记忆知识，并设计了用于卸载内容以防止隐私泄露的框架。在主题 (2) 中，我们引入了表征及过滤 Web 尺度数据的方法以最大化其效用，确立了指导算力约束下训练集策展的缩放定律，并利用合成数据生成技术显著加速模型预训练。通过结合这些研究成果，本论文提出了一条构建基础模型的新路径，使其能够既“负责任”地从 Web 尺度数据中学习——保障隐私与数据权利，又“高效”地从每一单位数据与算力中提取最大性能。

成为VIP会员查看完整内容

11

相关内容

基础模型训练

基础模型训练

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】利用信息论工具进行基础模型分析

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

【CMU博士论文】通过对不完美数据的稳健理解与学习推动基础模型的民主化

【CMU博士论文】通过对不完美数据的稳健理解与学习推动基础模型的民主化

专知会员服务

11+阅读 · 2025年5月21日

【NTU博士论文】数据高效的深度多模态学习

【NTU博士论文】数据高效的深度多模态学习

专知会员服务

25+阅读 · 2025年1月31日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

专知会员服务

39+阅读 · 2024年3月25日

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

专知会员服务

33+阅读 · 2023年12月26日

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

【NTU博士论文】针对预训练语言模型的数据高效领域适应,150页pdf

【NTU博士论文】针对预训练语言模型的数据高效领域适应,150页pdf

专知会员服务

50+阅读 · 2023年5月24日

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

专知

10+阅读 · 2022年10月20日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

Arxiv

0+阅读 · 2月1日

Behemoth: Benchmarking Unlearning in LLMs Using Fully Synthetic Data

Arxiv

0+阅读 · 1月30日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

Revisiting the Past: Data Unlearning with Model State History

Arxiv

0+阅读 · 1月26日

Towards Realistic Remote Sensing Dataset Distillation with Discriminative Prototype-guided Diffusion

Arxiv

0+阅读 · 1月22日

How Training Data Shapes the Use of Parametric and In-Context Knowledge in Language Models

Arxiv

0+阅读 · 1月7日

Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data

Arxiv

0+阅读 · 1月7日

Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey

Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey

Arxiv

0+阅读 · 1月6日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

231+阅读 · 2023年4月7日

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Arxiv

23+阅读 · 2021年11月2日

VIP会员

相关主题

基础模型训练

最新内容

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

专知会员服务

1+阅读 · 22分钟前

综述 | OPSD：大语言模型的在线策略自蒸馏

综述 | OPSD：大语言模型的在线策略自蒸馏

专知会员服务

1+阅读 · 26分钟前

算法化战争：人工智能时代的新范式（万字长文）

算法化战争：人工智能时代的新范式（万字长文）

专知会员服务

2+阅读 · 今天14:39

帕兰蒂尔Maven：军事人工智能的新纪元

帕兰蒂尔Maven：军事人工智能的新纪元

专知会员服务

2+阅读 · 今天14:00

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

《军事网络取证系统中的人工智能驱动情报融合：帕兰蒂尔公司“Maven智能系统”案例研究》

专知会员服务

4+阅读 · 今天13:20

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

《扩展主权人工智能操作系统：将Symphony作为帕兰蒂尔Foundry与英伟达的计算本体》

专知会员服务

4+阅读 · 今天13:16

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

11+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

6+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

5+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

3+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

8+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

4+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

6+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

7+阅读 · 5月30日

相关VIP内容

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

【CMU博士论文】基础模型训练中网络规模数据的负责任与高效使用

专知会员服务

14+阅读 · 2025年12月14日

【CMU博士论文】利用信息论工具进行基础模型分析

【CMU博士论文】利用信息论工具进行基础模型分析

专知会员服务

19+阅读 · 2025年8月31日

【CMU博士论文】通过对不完美数据的稳健理解与学习推动基础模型的民主化

【CMU博士论文】通过对不完美数据的稳健理解与学习推动基础模型的民主化

专知会员服务

11+阅读 · 2025年5月21日

【NTU博士论文】数据高效的深度多模态学习

【NTU博士论文】数据高效的深度多模态学习

专知会员服务

25+阅读 · 2025年1月31日

【MIT博士论文】高效深度学习计算的模型加速

【MIT博士论文】高效深度学习计算的模型加速

专知会员服务

34+阅读 · 2024年8月23日

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

【斯坦福博士论文】基础模型的数据分布视角，321页pdf

专知会员服务

42+阅读 · 2024年7月8日

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

【MIT博士论文】基于数据的模型可靠性视角，322页pdf

专知会员服务

39+阅读 · 2024年3月25日

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

【NUS博士论文】深度表示学习的视频基础模型，236页pdf

专知会员服务

33+阅读 · 2023年12月26日

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

【CMU博士论文】超越模型效率:机器学习系统的数据优化，147页pdf

专知会员服务

53+阅读 · 2023年7月1日

【NTU博士论文】针对预训练语言模型的数据高效领域适应,150页pdf

【NTU博士论文】针对预训练语言模型的数据高效领域适应,150页pdf

专知会员服务

50+阅读 · 2023年5月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | OPSD：大语言模型的在线策略自蒸馏

帕兰蒂尔Maven：军事人工智能的新纪元

ICML 2026 | Sheaf-ADMM：用可微优化学习多智能体协调

算法化战争：人工智能时代的新范式（万字长文）

相关资讯

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

ChatGPT背后大模型如何高效训练？京东探索研究院等最新《大规模深度学习模型高效训练研究》综述，60页pdf详述五大类训练方法

专知

29+阅读 · 2023年4月11日

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

【伯克利博士论文】硬件感知的高效深度学习，154页pdf

专知

10+阅读 · 2022年10月20日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【MIT博士论文】深度学习几何表示，138页pdf

【MIT博士论文】深度学习几何表示，138页pdf

专知

18+阅读 · 2022年9月4日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

深度学习模型可解释性的研究进展

深度学习模型可解释性的研究进展

专知

26+阅读 · 2020年8月1日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

【深度学习】深度学习的核心：掌握训练数据的方法

【深度学习】深度学习的核心：掌握训练数据的方法

产业智能官

12+阅读 · 2018年1月14日

相关基金

基于多源异构不确定数据的高效用信息挖掘的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

9+阅读 · 2015年12月31日

h型信息网络测度的机理与实证研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向大数据的信息可视化设计方法研究

国家自然科学基金

7+阅读 · 2014年12月31日

新型统计模型在精神疾病的基因、脑影像和行为数据整合中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

A Systematic Study of Data Modalities and Strategies for Co-training Large Behavior Models for Robot Manipulation

Arxiv

0+阅读 · 2月1日

Behemoth: Benchmarking Unlearning in LLMs Using Fully Synthetic Data

Arxiv

0+阅读 · 1月30日

Making Foundation Models Probabilistic via Singular Value Ensembles

Arxiv

0+阅读 · 1月29日

Revisiting the Past: Data Unlearning with Model State History

Arxiv

0+阅读 · 1月26日

Towards Realistic Remote Sensing Dataset Distillation with Discriminative Prototype-guided Diffusion

Arxiv

0+阅读 · 1月22日

How Training Data Shapes the Use of Parametric and In-Context Knowledge in Language Models

Arxiv

0+阅读 · 1月7日

Difficulty Controlled Diffusion Model for Synthesizing Effective Training Data

Arxiv

0+阅读 · 1月7日

Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey

Multi-Modal Data-Enhanced Foundation Models for Prediction and Control in Wireless Networks: A Survey

Arxiv

0+阅读 · 1月6日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

231+阅读 · 2023年4月7日

Large-Scale Deep Learning Optimizations: A Comprehensive Survey

Arxiv

23+阅读 · 2021年11月2日

微信扫码咨询专知VIP会员