Data mixing--the strategic reweighting of training domains--is a critical component in training robust machine learning models. This problem is naturally formulated as a bilevel optimization task, where the outer loop optimizes domain weights to minimize validation loss, and the inner loop optimizes model parameters to minimize the weighted training loss. Classical bilevel optimization relies on hypergradients, which theoretically require the inner optimization to reach convergence. However, due to computational constraints, state-of-the-art methods use a finite, often small, number of inner update steps before updating the weights. The theoretical implications of this approximation are not well understood. In this work, we rigorously analyze the convergence behavior of data mixing with a finite number of inner steps $T$. We prove that the "greedy" practical approach of using $T=1$ can fail even in a simple quadratic example. Under a fixed parameter update budget $N$ and assuming the per-domain losses are strongly convex, we show that the optimal $T$ scales as $Θ(\log N)$ (resp., $Θ({(N \log N)}^{1/2})$) for the data mixing problem with access to full (resp., stochastic) gradients. We complement our theoretical results with proof-of-concept experiments.


翻译:数据混合——对训练域进行战略性重加权——是训练鲁棒机器学习模型的关键组成部分。该问题自然表述为一个双层优化任务,其中外层循环优化域权重以最小化验证损失,内层循环优化模型参数以最小化加权训练损失。经典的双层优化依赖于超梯度,理论上要求内层优化达到收敛。然而,由于计算限制,现有先进方法在更新权重之前仅使用有限(通常很小)数量的内层更新步骤。这种近似的理论影响尚未得到充分理解。在本工作中,我们严格分析了使用有限内层步骤数 $T$ 进行数据混合的收敛行为。我们证明了使用 $T=1$ 的“贪婪”实用方法即使在简单的二次示例中也可能失败。在固定参数更新预算 $N$ 且假设各域损失函数为强凸的条件下,我们证明对于能够获取完整梯度(相应地,随机梯度)的数据混合问题,最优的 $T$ 以 $Θ(\log N)$(相应地,$Θ({(N \log N)}^{1/2})$)的速率增长。我们通过概念验证实验补充了理论结果。

0
下载
关闭预览

相关内容

多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
基于数据的分布式鲁棒优化算法及其应用【附PPT与视频资料】
人工智能前沿讲习班
27+阅读 · 2018年12月13日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
<好书推荐> -《Pro Deep Learning with TensorFlow》分享
深度学习与NLP
12+阅读 · 2018年9月13日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
干货|掌握机器学习数学基础之优化[1](重点知识)
机器学习研究会
10+阅读 · 2017年11月19日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
6+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关VIP内容
多样化偏好优化
专知会员服务
12+阅读 · 2025年2月3日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
16+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员