无需窥探的调优：可证明的泛化边界与鲁棒性大语言模型后训练 (Tuning without Peeking: Provable Generalization Bounds and Robust LLM Post-Training) - 专知论文

会员服务 ·

0

泛化 · 鲁棒 · 攻击 · 黑盒 · 梯度 ·

Tuning without Peeking: Provable Generalization Bounds and Robust LLM Post-Training

翻译：无需窥探的调优：可证明的泛化边界与鲁棒性大语言模型后训练

Ismail Labiad,Mathurin Videau,Matthieu Kowalski,Marc Schoenauer,Alessandro Leite,Julia Kempe,Olivier Teytaud

Gradient-based optimization is the workhorse of deep learning, offering efficient and scalable training via backpropagation. However, exposing gradients during training can leak sensitive information about the underlying data, raising privacy and security concerns such as susceptibility to data poisoning attacks. In contrast, black box optimization methods, which treat the model as an opaque function, relying solely on function evaluations to guide optimization, offer a promising alternative in scenarios where data access is restricted, adversarial risks are high, or overfitting is a concern. This paper introduces BBoxER, an evolutionary black-box method for LLM post-training that induces an information bottleneck via implicit compression of the training data. Leveraging the tractability of information flow, we provide non-vacuous generalization bounds and strong theoretical guarantees for privacy, robustness to data poisoning attacks, and extraction attacks. In experiments with LLMs, we demonstrate empirically that black-box optimization methods, despite the scalability and computational challenges inherent to black-box approaches, are able to learn, showing how a few iterations of BBoxER improve performance, generalize well on a benchmark of reasoning datasets, and are robust to membership inference attacks. This positions BBoxER as an attractive add-on on top of gradient-based optimization, offering suitability for deployment in restricted or privacy-sensitive environments while also providing non-vacuous generalization guarantees.

翻译：梯度优化是深度学习的核心方法，通过反向传播实现了高效且可扩展的训练。然而，训练过程中梯度的暴露可能泄露底层数据的敏感信息，从而引发隐私和安全问题，例如对数据投毒攻击的易感性。相比之下，黑盒优化方法将模型视为不透明函数，仅依靠函数评估来指导优化，在数据访问受限、对抗风险较高或存在过拟合担忧的场景中提供了一种有前景的替代方案。本文提出了BBoxER，一种用于大语言模型后训练的进化黑盒方法，通过对训练数据的隐式压缩引入信息瓶颈。利用信息流的可追踪性，我们为非平凡泛化边界以及隐私性、数据投毒攻击鲁棒性和提取攻击鲁棒性提供了坚实的理论保证。在大语言模型实验中，我们通过实证表明，尽管黑盒方法存在固有的可扩展性和计算挑战，黑盒优化方法仍具备学习能力：少量BBoxER迭代即可提升模型性能，在推理数据集基准测试中表现出良好的泛化能力，并对成员推理攻击具有鲁棒性。这使得BBoxER成为基于梯度优化的理想附加模块，适用于受限或隐私敏感环境的部署，同时提供非平凡的泛化保证。

0

相关内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

专知会员服务

29+阅读 · 2025年1月27日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

专知会员服务

53+阅读 · 2023年1月28日

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

专知会员服务

33+阅读 · 2021年12月5日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

【干货】深度学习的深度思考，49页pdf，Deep Thoughts on Deep Learning

【干货】深度学习的深度思考，49页pdf，Deep Thoughts on Deep Learning

专知会员服务

30+阅读 · 2019年11月14日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

Optimization is Not Enough: Why Problem Formulation Deserves Equal Attention

Arxiv

0+阅读 · 2月5日

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Arxiv

0+阅读 · 2月2日

Investigating the Interplay of Parameterization and Optimizer in Gradient-Free Topology Optimization: A Cantilever Beam Case Study

Arxiv

0+阅读 · 2月2日

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Arxiv

0+阅读 · 2月2日

From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning

Arxiv

0+阅读 · 1月29日

Provable Learning of Random Hierarchy Models and Hierarchical Shallow-to-Deep Chaining

Arxiv

0+阅读 · 1月27日

Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization

Arxiv

0+阅读 · 1月19日

Optimization Insights into Deep Diagonal Linear Networks

Arxiv

0+阅读 · 1月19日

MAST: Model-Agnostic Sparsified Training

Arxiv

0+阅读 · 1月6日

Adversarial Contrastive Learning for LLM Quantization Attacks

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

相关VIP内容

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

专知会员服务

14+阅读 · 2025年8月15日

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

118页纽约大学《深度学习模型训练优化方法综述：收敛性与泛化性的理论视角》

专知会员服务

29+阅读 · 2025年1月27日

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

【普林斯顿博士论文】深度学习优化的隐性偏差：数学考察，391页pdf

专知会员服务

29+阅读 · 2024年10月4日

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

【普林斯顿博士论文】深度学习理论与实践的桥接:优化与泛化，540页pdf

专知会员服务

53+阅读 · 2023年1月28日

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

深度学习如何规模化？GMU微软等最新《大规模深度学习服务系统优化研究》综述论文，阐述大规模深度学习推理系统优化挑战与机遇

专知会员服务

33+阅读 · 2021年12月5日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

机器学习的可解释性

机器学习的可解释性

专知会员服务

69+阅读 · 2020年12月18日

最新《机器学习最优化》课程笔记，36页pdf，Optimization for Machine Learning

专知会员服务

171+阅读 · 2020年5月10日

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

【机器学习最优化课程笔记】Optimization for Machine Learning，36页pdf

专知会员服务

117+阅读 · 2020年3月25日

【干货】深度学习的深度思考，49页pdf，Deep Thoughts on Deep Learning

【干货】深度学习的深度思考，49页pdf，Deep Thoughts on Deep Learning

专知会员服务

30+阅读 · 2019年11月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

1200+标星，3千多人点赞，这本书让你系统了解机器学习可解释性丨开源免费阅读

量子位

13+阅读 · 2019年7月16日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

2018年深度学习优化算法最新综述

2018年深度学习优化算法最新综述

计算机视觉战队

10+阅读 · 2018年12月11日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

【人工智能】神经网络常用优化算法概览、一文了解迁移学习经典算法

产业智能官

13+阅读 · 2018年8月18日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 深度学习模型的简单优化技巧

入门 | 深度学习模型的简单优化技巧

机器之心

10+阅读 · 2018年6月10日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Optimization is Not Enough: Why Problem Formulation Deserves Equal Attention

Arxiv

0+阅读 · 2月5日

Small Generalizable Prompt Predictive Models Can Steer Efficient RL Post-Training of Large Reasoning Models

Arxiv

0+阅读 · 2月2日

Investigating the Interplay of Parameterization and Optimizer in Gradient-Free Topology Optimization: A Cantilever Beam Case Study

Arxiv

0+阅读 · 2月2日

Beyond Precision: Training-Inference Mismatch is an Optimization Problem and Simple LR Scheduling Fixes It

Arxiv

0+阅读 · 2月2日

From Meta-Thought to Execution: Cognitively Aligned Post-Training for Generalizable and Reliable LLM Reasoning

Arxiv

0+阅读 · 1月29日

Provable Learning of Random Hierarchy Models and Hierarchical Shallow-to-Deep Chaining

Arxiv

0+阅读 · 1月27日

Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization

Arxiv

0+阅读 · 1月19日

Optimization Insights into Deep Diagonal Linear Networks

Arxiv

0+阅读 · 1月19日

MAST: Model-Agnostic Sparsified Training

Arxiv

0+阅读 · 1月6日

Adversarial Contrastive Learning for LLM Quantization Attacks

Arxiv

0+阅读 · 1月6日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向推荐系统中异构隐式反馈建模的迁移学习技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

可证明的网络和数据匿名性及隐私增强身份管理关键技术研究

国家自然科学基金

3+阅读 · 2014年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

强化学习关键技术及其在机器人行为学习中的应用

国家自然科学基金

23+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员