MixMin: Finding Data Mixtures via Convex Minimization - 专知论文

会员服务 ·

0

混合 · 最优 · 融合 · 异构 · 形式化 ·

MixMin: Finding Data Mixtures via Convex Minimization

翻译：MixMin：通过凸优化寻找数据混合方案

Anvith Thudi,Evianne Rovers,Yangjun Ruan,Tristan Thrush,Chris J. Maddison

from arxiv, Proceedings of the 42nd International Conference on Machine Learning

Modern machine learning pipelines are increasingly combining and mixing data from diverse and disparate sources, e.g., pre-training large language models. Yet, finding the optimal data mixture is a challenging and open problem. We formalize this data mixing problem as a bi-level objective: the best mixture is the one that would lead to the best model for a downstream objective. Unfortunately, this objective is generally intractable. In this paper, we make the observation that the bi-level data mixing objective becomes convex as our model class becomes larger. We develop and study a gradient-based approach for optimizing this convex objective, which we call MixMin, and test it on language modeling and chemistry tasks. MixMin was the only method that uniformly improved the data mixture in all our experiments. With MixMin, we improved the data mixture using less than 0.2% additional compute for a pythia-410M model trained on 8.2B tokens, resulting between 1-5% relative improvement to negative log likelihood on PIQA, ARC Easy, SciQ, and OpenWebMath. Crucially, we found that MixMin mixtures for smaller models improved training of larger models, suggesting that MixMin mixtures may be scale-invariant. When mixing bioassay data to train an XGBoost model, we saw improvements to average precision scores of 0.03-0.15.

翻译：现代机器学习流程日益融合来自不同且异构来源的数据，例如预训练大型语言模型。然而，寻找最优数据混合方案仍是一个具有挑战性的开放性问题。我们将此数据混合问题形式化为一个双层优化目标：最优混合方案应能产生最适应下游任务的模型。遗憾的是，该目标通常难以直接求解。本文发现，当模型类别扩大时，该双层数据混合目标会转化为凸优化问题。我们提出并研究了一种基于梯度的凸优化方法，称为MixMin，并在语言建模与化学任务中进行了验证。在所有实验中，MixMin是唯一能持续提升数据混合效果的方法。通过MixMin，我们在使用pythia-410M模型训练82亿词元时，仅增加不足0.2%的计算开销便优化了数据混合方案，使PIQA、ARC Easy、SciQ和OpenWebMath数据集的负对数似然相对提升了1-5%。关键的是，我们发现针对小模型优化的MixMin混合方案同样能提升大模型的训练效果，这表明MixMin混合方案可能具有尺度不变性。在混合生物测定数据训练XGBoost模型时，平均精度分数提升了0.03-0.15。

0

相关内容

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

《Mixup数据增强及其扩展》综述

《Mixup数据增强及其扩展》综述

专知会员服务

37+阅读 · 2024年9月15日

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

专知会员服务

30+阅读 · 2024年8月15日

【阿姆斯特丹博士论文】组合空间的学习与优化:专注于车辆路径的深度学习，172页pdf

【阿姆斯特丹博士论文】组合空间的学习与优化:专注于车辆路径的深度学习，172页pdf

专知会员服务

41+阅读 · 2023年3月20日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

31+阅读 · 2022年12月29日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

55+阅读 · 2021年11月19日

机器学习组合优化

机器学习组合优化

专知会员服务

112+阅读 · 2021年2月16日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知会员服务

148+阅读 · 2020年12月10日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

Olmix: A Framework for Data Mixing Throughout LM Development

Arxiv

0+阅读 · 2月12日

Evaluating Numerical Accuracy in Mixed-Precision Computing by Dual-Delta Testing

Arxiv

0+阅读 · 2月11日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

Dataset Distillation as Pushforward Optimal Quantization

Arxiv

0+阅读 · 2月6日

Learning Deep Hybrid Models with Sharpness-Aware Minimization

Arxiv

0+阅读 · 2月6日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

Mixtera: A Data Plane for Foundation Model Training

Arxiv

0+阅读 · 2月1日

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data

Arxiv

0+阅读 · 1月29日

MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging

Arxiv

0+阅读 · 1月25日

TREX: Tokenizer Regression for Optimal Data Mixture

Arxiv

0+阅读 · 1月20日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

9+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

《Mixup数据增强及其扩展》综述

《Mixup数据增强及其扩展》综述

专知会员服务

37+阅读 · 2024年9月15日

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

【MIT博士论文】优化与现代机器学习的融合：理论、计算与医疗应用

专知会员服务

30+阅读 · 2024年8月15日

【阿姆斯特丹博士论文】组合空间的学习与优化:专注于车辆路径的深度学习，172页pdf

【阿姆斯特丹博士论文】组合空间的学习与优化:专注于车辆路径的深度学习，172页pdf

专知会员服务

41+阅读 · 2023年3月20日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

31+阅读 · 2022年12月29日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

55+阅读 · 2021年11月19日

机器学习组合优化

机器学习组合优化

专知会员服务

112+阅读 · 2021年2月16日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知会员服务

148+阅读 · 2020年12月10日

【博士论文】机器学习中部分非凸和随机优化算法研究

专知会员服务

75+阅读 · 2020年12月7日

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

【谷歌大脑新论文】利用可微摄动优化器进行学习，Learning with Differentiable Perturbed Optimizers

专知会员服务

29+阅读 · 2020年2月22日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

【斯坦福博士论文】利用先验知识和结构进行数据高效的机器学习，154页pdf

专知

28+阅读 · 2022年9月11日

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

【AI+医学】多模态深度学习在生物医学数据融合中的应用研究进展，瑞典舍午德大学

专知

14+阅读 · 2022年5月31日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知

10+阅读 · 2022年2月10日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

基于深度学习的数据融合方法研究综述

基于深度学习的数据融合方法研究综述

专知

37+阅读 · 2020年12月10日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

Olmix: A Framework for Data Mixing Throughout LM Development

Arxiv

0+阅读 · 2月12日

Evaluating Numerical Accuracy in Mixed-Precision Computing by Dual-Delta Testing

Arxiv

0+阅读 · 2月11日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

Dataset Distillation as Pushforward Optimal Quantization

Arxiv

0+阅读 · 2月6日

Learning Deep Hybrid Models with Sharpness-Aware Minimization

Arxiv

0+阅读 · 2月6日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

Mixtera: A Data Plane for Foundation Model Training

Arxiv

0+阅读 · 2月1日

A Deterministic Information Bottleneck Method for Clustering Mixed-Type Data

Arxiv

0+阅读 · 1月29日

MergeMix: Optimizing Mid-Training Data Mixtures via Learnable Model Merging

Arxiv

0+阅读 · 1月25日

TREX: Tokenizer Regression for Optimal Data Mixture

Arxiv

0+阅读 · 1月20日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

高维不平衡数据的集成学习算法研究

国家自然科学基金

17+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

云环境中支持混合并行模式的科学工作流的执行优化

国家自然科学基金

0+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员