基础模型——即在 Web 尺度数据上训练的大型神经网络——已经彻底改变了人工智能领域,但其对海量互联网语料的利用引发了两项严峻挑战。首先是负责任的数据利用:模型有时会记忆并复现敏感信息或受版权保护的内容,从而带来隐私泄露与法律风险。因此,确保训练数据的准确归因以及实现事后(post-hoc)卸载特定数据能力变得至关重要。其次是高效的数据利用:在高质量 Web 数据日益稀缺的背景下,不加区别地扩大数据与模型规模会导致计算成本难以承受。必须通过科学的数据策展(Curation)与增强技术来提升训练效率。
本论文通过围绕两大主题的创新贡献解决了上述挑战:(1) 理解并缓解基础模型中的记忆现象;(2) 大规模环境下数据质量与训练效率的提升。在主题 (1) 中,我们开发了将模型输出归因至训练数据的技术,检测并定位模型参数中存储的记忆知识,并设计了用于卸载内容以防止隐私泄露的框架。在主题 (2) 中,我们引入了表征及过滤 Web 尺度数据的方法以最大化其效用,确立了指导算力约束下训练集策展的缩放定律,并利用合成数据生成技术显著加速模型预训练。通过结合这些研究成果,本论文提出了一条构建基础模型的新路径,使其能够既“负责任”地从 Web 尺度数据中学习——保障隐私与数据权利,又“高效”地从每一单位数据与算力中提取最大性能。