We propose ADAPT, a meta-learning algorithm that \emph{learns} task sampling proportions under an explicit token budget for multi-task instruction tuning. Instead of fixing task weights by hand, \adapt{} maintains a continuous distribution over tasks and updates it via meta-gradients of a smooth worst-case validation objective, inducing an adaptive curriculum that allocates more tokens to useful tasks while avoiding collapse. We instantiate ADAPT on three $\sim$1B-parameter open-weight LLMs (Gemma-3-1B, LLaMA-3.2-1B, Qwen-0.6B), training on 20 Natural Instructions task types under budgets of $1\%$, $5\%$, and $10\%$ of the available supervised tokens, and compare against strong supervised fine-tuning baselines with uniform and size-proportional mixing. We conduct evaluations on 11 out-of-domain benchmarks spanning reasoning, reading comprehension, code generation, and instruction following, we find that ADAPT matches or slightly improves average downstream performance relative to the best static mixture, while using fewer effective training tokens and reallocating budget toward harder, benchmark-aligned tasks.


翻译:我们提出ADAPT,一种元学习算法,能够在明确的令牌预算下学习多任务指令微调的任务采样比例。与手动固定任务权重不同,ADAPT通过维护任务的连续分布,并利用平滑最坏情况验证目标的元梯度进行更新,从而构建一种自适应课程策略,将更多令牌分配给有效任务,同时避免训练崩溃。我们在三个约10亿参数的开源大语言模型(Gemma-3-1B、LLaMA-3.2-1B、Qwen-0.6B)上实例化ADAPT,在可用监督令牌的1%、5%和10%预算下对20种自然指令任务类型进行训练,并与采用均匀混合和规模比例混合的强监督微调基线进行比较。通过对涵盖推理、阅读理解、代码生成和指令遵循的11个领域外基准进行评估,我们发现ADAPT在减少有效训练令牌使用量的同时,将预算重新分配给更困难且与基准对齐的任务,其平均下游性能与最佳静态混合方法相当或略有提升。

0
下载
关闭预览

相关内容

【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
25+阅读 · 2021年9月25日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
MNIST入门:贝叶斯方法
Python程序员
23+阅读 · 2017年7月3日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
【NeurIPS2023】CQM: 与量化世界模型的课程强化学习
专知会员服务
25+阅读 · 2023年10月29日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
专知会员服务
25+阅读 · 2021年9月25日
相关资讯
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员