Olmix: A Framework for Data Mixing Throughout LM Development - 专知论文

会员服务 ·

0

混合 · 语言模型 · 混合方法 · 重用 · 设计 ·

Olmix: A Framework for Data Mixing Throughout LM Development

翻译：Olmix：贯穿语言模型开发全过程的数据混合框架

Mayee F. Chen,Tyler Murray,David Heineman,Matt Jordan,Hannaneh Hajishirzi,Christopher Ré,Luca Soldaini,Kyle Lo

Data mixing -- determining the ratios of data from different domains -- is a first-order concern for training language models (LMs). While existing mixing methods show promise, they fall short when applied during real-world LM development. We present Olmix, a framework that addresses two such challenges. First, the configuration space for developing a mixing method is not well understood -- design choices across existing methods lack justification or consensus and overlook practical issues like data constraints. We conduct a comprehensive empirical study of this space, identifying which design choices lead to a strong mixing method. Second, in practice, the domain set evolves throughout LM development as datasets are added, removed, partitioned, and revised -- a problem setting largely unaddressed by existing works, which assume fixed domains. We study how to efficiently recompute the mixture after the domain set is updated, leveraging information from past mixtures. We introduce mixture reuse, a mechanism that reuses existing ratios and recomputes ratios only for domains affected by the update. Over a sequence of five domain-set updates mirroring real-world LM development, mixture reuse matches the performance of fully recomputing the mix after each update with 74% less compute and improves over training without mixing by 11.6% on downstream tasks.

翻译：数据混合——确定来自不同领域数据的比例——是训练语言模型（LMs）时首要关注的问题。虽然现有的混合方法显示出潜力，但在实际的语言模型开发过程中应用时仍显不足。我们提出了Olmix框架，旨在解决两个此类挑战。首先，开发混合方法的配置空间尚未被充分理解——现有方法中的设计选择缺乏充分的理由或共识，并且忽视了数据约束等实际问题。我们对该配置空间进行了全面的实证研究，识别出哪些设计选择能产生强大的混合方法。其次，在实践中，领域集合在整个语言模型开发过程中会不断演变，例如数据集的添加、移除、划分和修订——这是一个现有研究大多未涉及的问题设定，因为它们通常假设领域是固定的。我们研究了如何在领域集合更新后，利用过去混合方案的信息来高效地重新计算混合比例。我们引入了混合重用机制，该机制重用现有的比例，并仅对受更新影响的领域重新计算比例。在一系列模拟真实世界语言模型开发的五次领域集合更新过程中，混合重用机制在每次更新后都能达到完全重新计算混合比例的性能，同时减少了74%的计算量，并且在下游任务上比不进行混合的训练提升了11.6%。

0

相关内容

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

重新思考代理混合模型：混合不同的大型语言模型是否有益？

重新思考代理混合模型：混合不同的大型语言模型是否有益？

专知会员服务

20+阅读 · 2025年2月9日

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

专知会员服务

54+阅读 · 2024年12月25日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

专知会员服务

14+阅读 · 2020年1月3日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

Domain-Adaptive Model Merging across Disconnected Modes

Arxiv

0+阅读 · 3月6日

LinkML: An Open Data Modeling Framework

Arxiv

0+阅读 · 3月2日

LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

Arxiv

0+阅读 · 2月15日

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Arxiv

0+阅读 · 2月10日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Arxiv

0+阅读 · 2月5日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training

Arxiv

0+阅读 · 2月1日

Mixtera: A Data Plane for Foundation Model Training

Arxiv

0+阅读 · 2月1日

VIP会员

文章信息

相关主题

最新内容

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

0+阅读 · 29分钟前

多智能体协作机制

多智能体协作机制

专知会员服务

0+阅读 · 33分钟前

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

4+阅读 · 今天4:39

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

13+阅读 · 今天2:52

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

5+阅读 · 今天2:48

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

8+阅读 · 今天2:43

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

6+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

7+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

6+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

9+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

13+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

9+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

4+阅读 · 4月24日

相关VIP内容

大语言模型时代下的模型合并：方法、应用与未来方向

大语言模型时代下的模型合并：方法、应用与未来方向

专知会员服务

14+阅读 · 3月11日

重新思考代理混合模型：混合不同的大型语言模型是否有益？

重新思考代理混合模型：混合不同的大型语言模型是否有益？

专知会员服务

20+阅读 · 2025年2月9日

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

【NeurIPS2024教程】打开语言模型流水线：数据准备、模型训练与适配，255页ppt

专知会员服务

54+阅读 · 2024年12月25日

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

大规模语言模型生成的合成数据中的质量、多样性与复杂性效应综述

专知会员服务

32+阅读 · 2024年12月10日

《大语言模型的数据合成与增强综述》

《大语言模型的数据合成与增强综述》

专知会员服务

43+阅读 · 2024年10月19日

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

基于大语言模型（LLM）的合成数据生成、策展和评估的综述

专知会员服务

62+阅读 · 2024年7月5日

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

GPT-4o核心技术？哈工大最新《Uni-MoE：使用专家混合模型扩展统一多模态大语言模型》

专知会员服务

35+阅读 · 2024年5月26日

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

大模型如何利用数据？北大华为等最新《大型语言模型的数据管理》综述

专知会员服务

99+阅读 · 2023年12月6日

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

Mix数据增强怎么做？香港城市大学最新《混合数据增强》综述，全面阐述MixDA方法、应用与可解释性

专知会员服务

30+阅读 · 2022年12月29日

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

预训练语言模型究竟捕获了什么？（oLMpics - On what Language Model Pre-training Captures）

专知会员服务

14+阅读 · 2020年1月3日

热门VIP内容

开通专知VIP会员享更多权益服务

多智能体协作机制

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

2025年大语言模型进展报告

非对称优势：美海军开发低成本反无人机技术

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

Databricks 开源 MLflow 平台，解决机器学习开发四大难点

AI研习社

13+阅读 · 2018年6月8日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

相关论文

Domain-Adaptive Model Merging across Disconnected Modes

Arxiv

0+阅读 · 3月6日

LinkML: An Open Data Modeling Framework

Arxiv

0+阅读 · 3月2日

LM-Lexicon: Improving Definition Modeling via Harmonizing Semantic Experts

Arxiv

0+阅读 · 2月15日

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Arxiv

0+阅读 · 2月10日

MaD-Mix: Multi-Modal Data Mixtures via Latent Space Coupling for Vision-Language Model Training

Arxiv

0+阅读 · 2月8日

LIBMoE: A Library for comprehensive benchmarking Mixture of Experts in Large Language Models

Arxiv

0+阅读 · 2月5日

Transport and Merge: Cross-Architecture Merging for Large Language Models

Arxiv

0+阅读 · 2月5日

UniGeM: Unifying Data Mixing and Selection via Geometric Exploration and Mining

Arxiv

0+阅读 · 2月3日

SNIP: An Adaptive Mixed Precision Framework for Subbyte Large Language Model Training

Arxiv

0+阅读 · 2月1日

Mixtera: A Data Plane for Foundation Model Training

Arxiv

0+阅读 · 2月1日

相关基金

混合预编码器的内在关联机制与结构优化

国家自然科学基金

0+阅读 · 2017年12月31日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

有效融合多源异构数据的集成分类器研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

混合分布模型中序性质和维修策略的一些研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

非线性混合效应模型的最优与稳健设计

国家自然科学基金

0+阅读 · 2014年12月31日

基于模型驱动的并发建模语言Apla+设计及其可靠性研究

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员