Gradient-based optimization is the workhorse of deep learning, offering efficient and scalable training via backpropagation. However, exposing gradients during training can leak sensitive information about the underlying data, raising privacy and security concerns such as susceptibility to data poisoning attacks. In contrast, black box optimization methods, which treat the model as an opaque function, relying solely on function evaluations to guide optimization, offer a promising alternative in scenarios where data access is restricted, adversarial risks are high, or overfitting is a concern. This paper introduces BBoxER, an evolutionary black-box method for LLM post-training that induces an information bottleneck via implicit compression of the training data. Leveraging the tractability of information flow, we provide non-vacuous generalization bounds and strong theoretical guarantees for privacy, robustness to data poisoning attacks, and extraction attacks. In experiments with LLMs, we demonstrate empirically that black-box optimization methods, despite the scalability and computational challenges inherent to black-box approaches, are able to learn, showing how a few iterations of BBoxER improve performance, generalize well on a benchmark of reasoning datasets, and are robust to membership inference attacks. This positions BBoxER as an attractive add-on on top of gradient-based optimization, offering suitability for deployment in restricted or privacy-sensitive environments while also providing non-vacuous generalization guarantees.


翻译:梯度优化是深度学习的核心方法,通过反向传播实现了高效且可扩展的训练。然而,训练过程中梯度的暴露可能泄露底层数据的敏感信息,从而引发隐私和安全问题,例如对数据投毒攻击的易感性。相比之下,黑盒优化方法将模型视为不透明函数,仅依靠函数评估来指导优化,在数据访问受限、对抗风险较高或存在过拟合担忧的场景中提供了一种有前景的替代方案。本文提出了BBoxER,一种用于大语言模型后训练的进化黑盒方法,通过对训练数据的隐式压缩引入信息瓶颈。利用信息流的可追踪性,我们为非平凡泛化边界以及隐私性、数据投毒攻击鲁棒性和提取攻击鲁棒性提供了坚实的理论保证。在大语言模型实验中,我们通过实证表明,尽管黑盒方法存在固有的可扩展性和计算挑战,黑盒优化方法仍具备学习能力:少量BBoxER迭代即可提升模型性能,在推理数据集基准测试中表现出良好的泛化能力,并对成员推理攻击具有鲁棒性。这使得BBoxER成为基于梯度优化的理想附加模块,适用于受限或隐私敏感环境的部署,同时提供非平凡的泛化保证。

0
下载
关闭预览

相关内容

机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Arxiv
0+阅读 · 1月6日
VIP会员
相关VIP内容
相关资讯
探索(Exploration)还是利用(Exploitation)?强化学习如何tradeoff?
深度强化学习实验室
13+阅读 · 2020年8月23日
机器学习中的最优化算法总结
人工智能前沿讲习班
22+阅读 · 2019年3月22日
2018年深度学习优化算法最新综述
计算机视觉战队
10+阅读 · 2018年12月11日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
入门 | 深度学习模型的简单优化技巧
机器之心
10+阅读 · 2018年6月10日
从浅层模型到深度模型:概览机器学习优化算法
机器之心
27+阅读 · 2017年7月9日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员