基础模型——即在 Web 尺度数据上训练的大型神经网络——已经彻底改变了人工智能领域,但其对海量互联网语料的利用引发了两项严峻挑战。首先是负责任的数据利用:模型有时会记忆并复现敏感信息或受版权保护的内容,从而带来隐私泄露与法律风险。因此,确保训练数据的准确归因以及实现事后(post-hoc)卸载特定数据能力变得至关重要。其次是高效的数据利用:在高质量 Web 数据日益稀缺的背景下,不加区别地扩大数据与模型规模会导致计算成本难以承受。必须通过科学的数据策展(Curation)与增强技术来提升训练效率。

本论文通过围绕两大主题的创新贡献解决了上述挑战:(1) 理解并缓解基础模型中的记忆现象;(2) 大规模环境下数据质量与训练效率的提升。在主题 (1) 中,我们开发了将模型输出归因至训练数据的技术,检测并定位模型参数中存储的记忆知识,并设计了用于卸载内容以防止隐私泄露的框架。在主题 (2) 中,我们引入了表征及过滤 Web 尺度数据的方法以最大化其效用,确立了指导算力约束下训练集策展的缩放定律,并利用合成数据生成技术显著加速模型预训练。通过结合这些研究成果,本论文提出了一条构建基础模型的新路径,使其能够既“负责任”地从 Web 尺度数据中学习——保障隐私与数据权利,又“高效”地从每一单位数据与算力中提取最大性能。

成为VIP会员查看完整内容
11

相关内容

【CMU博士论文】利用信息论工具进行基础模型分析
专知会员服务
19+阅读 · 2025年8月31日
【NTU博士论文】数据高效的深度多模态学习
专知会员服务
24+阅读 · 2025年1月31日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
【斯坦福博士论文】基础模型的数据分布视角,321页pdf
专知会员服务
42+阅读 · 2024年7月8日
【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
【MIT博士论文】数据高效强化学习,176页pdf
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
【深度学习】深度学习的核心:掌握训练数据的方法
产业智能官
12+阅读 · 2018年1月14日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员