The Effect of Training Task Diversity on In-Context Learning through the Lens of Low-Dimensional Subspaces - 专知论文

会员服务 ·

0

多样性 · Learning · Subspace · 向量化 · 泛化理论 ·

The Effect of Training Task Diversity on In-Context Learning through the Lens of Low-Dimensional Subspaces

翻译：训练任务多样性对上下文学习的影响：基于低维子空间的视角

Soo Min Kwon,Alec S. Xu,Can Yaras,Dogyoon Song,Laura Balzano,Qing Qu

The transformer's emergent ability to perform in-context learning (ICL) has sparked a wide range of studies designed to understand its underlying mechanisms. Existing works often study how training task diversity, defined either as the number of ICL training task vectors or as the number of function classes from which the task vectors are drawn, shapes both the learning dynamics and generalization capabilities of ICL. While both definitions have uncovered many interesting phenomena, many observations under the latter definition remain theoretically unexplained. This paper presents a minimal analytical model under which these phenomena provably emerge from the properties of the training data. By modeling the training task vectors as a mixture of low-rank Gaussians, we show how training task diversity, defined by the number of non-overlapping columns between subspaces that parameterize the covariance matrices, improves both the generalization and optimization trajectory of ICL with linear attention. In particular, we show that our model can explain (i) why training with task diversity shortens the ICL plateau and (ii) why ICL appears to achieve out-of-distribution generalization. We conclude by empirically demonstrating how our results extend to nonlinear transformers and nonlinear function classes. Overall, our work presents a tractable framework to unify existing observations.

翻译：摘要：Transformer通过上下文学习（ICL）展现出的涌现能力引发了对其潜在机制的大量研究。现有工作通常研究训练任务多样性（定义为ICL训练任务向量的数量或提取任务向量的函数类别数量）如何塑造ICL的学习动态和泛化能力。尽管两种定义都揭示了许多有趣现象，但在后一种定义下观察到的许多现象仍缺乏理论解释。本文提出了一个最小解析模型，在此模型下这些现象可从训练数据的特性中严格推导得出。通过将训练任务向量建模为低秩高斯混合分布，我们展示了以参数化协方差矩阵的子空间之间非重叠列数量所定义的训练任务多样性，如何改进线性注意力ICL的泛化性能和优化轨迹。特别地，我们证明该模型能够解释：（i）为何任务多样性训练能缩短ICL的平稳期，（ii）为何ICL似乎实现了分布外泛化。最后通过实验证明了我们的结论可推广至非线性Transformer和非线性函数类别。总体上，本文提出了一个可处理的框架来统一解释现有观察结果。

0

相关内容

多样性

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

9+阅读 · 6月19日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

13+阅读 · 4月30日

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

25+阅读 · 2025年12月17日

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

专知会员服务

23+阅读 · 2024年11月1日

释放多任务学习的力量：涵盖传统、深度和预训练基础模型时代的综述

释放多任务学习的力量：涵盖传统、深度和预训练基础模型时代的综述

专知会员服务

34+阅读 · 2024年5月2日

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

《多任务学习》最新综述论文，20页pdf

《多任务学习》最新综述论文，20页pdf

专知会员服务

127+阅读 · 2021年4月6日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

深度学习与NLP

45+阅读 · 2019年10月22日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

机器之心

12+阅读 · 2018年3月9日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

线上渠道交互对线下渠道绩效的影响：基于双路径的理论和实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training

Arxiv

0+阅读 · 6月15日

Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

Arxiv

0+阅读 · 6月14日

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

Arxiv

0+阅读 · 6月14日

Meta-Learning Transformers to Improve In-Context Generalization

Arxiv

0+阅读 · 6月11日

Task-Aware Structured Memory for Dynamic Multi-modal In-Context Learning

Arxiv

0+阅读 · 6月10日

SynthICL: Scalable In-context Imitation Learning with Synthetic Data

Arxiv

0+阅读 · 6月6日

In-Context Multiple Instance Learning

Arxiv

0+阅读 · 6月4日

Optimal Attention Temperature Improves the Robustness of In-Context Learning under Distribution Shift in High Dimensions

Arxiv

0+阅读 · 5月11日

Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent

Arxiv

0+阅读 · 5月7日

Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

8+阅读 · 8月2日

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

3+阅读 · 8月2日

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

7+阅读 · 8月2日

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

9+阅读 · 8月2日

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

4+阅读 · 8月2日

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

8+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

6+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

6+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

6+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

4+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

12+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

9+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

10+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

6+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

9+阅读 · 7月31日

相关VIP内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

9+阅读 · 6月19日

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

【斯坦福博士论文】驾驭上下文内记忆与学习的质量—效率权衡

专知会员服务

13+阅读 · 4月30日

【博士论文】基于多模态基础模型的上下文学习

【博士论文】基于多模态基础模型的上下文学习

专知会员服务

25+阅读 · 2025年12月17日

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

【阿姆斯特丹博士论文】缓解多任务学习中的偏差

专知会员服务

23+阅读 · 2024年11月1日

释放多任务学习的力量：涵盖传统、深度和预训练基础模型时代的综述

释放多任务学习的力量：涵盖传统、深度和预训练基础模型时代的综述

专知会员服务

34+阅读 · 2024年5月2日

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

谷歌等最新《使用检索示例的大语言模型上下文学习》综述

专知会员服务

57+阅读 · 2024年1月24日

【ICML2021】多任务学习与元学习的衔接:面向高效训练与有效适应

专知会员服务

33+阅读 · 2021年6月18日

《多任务学习》最新综述论文，20页pdf

《多任务学习》最新综述论文，20页pdf

专知会员服务

127+阅读 · 2021年4月6日

【斯坦福大学】Gradient Surgery for Multi-Task Learning

【斯坦福大学】Gradient Surgery for Multi-Task Learning

专知会员服务

47+阅读 · 2020年1月23日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

300+篇文献！一文详解基于Transformer的多模态学习最新进展

300+篇文献！一文详解基于Transformer的多模态学习最新进展

PaperWeekly

13+阅读 · 2022年7月1日

【博士论文】多任务学习视觉场景理解，140页pdf

【博士论文】多任务学习视觉场景理解，140页pdf

专知

28+阅读 · 2022年4月5日

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

元迁移学习的小样本学习，Meta-transfer Learning for Few-shot Learning，33页ppt

专知

72+阅读 · 2020年2月29日

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

多任务学习(Multitask-Learning)相关资料、经典论文、开源代码整理分享

深度学习与NLP

45+阅读 · 2019年10月22日

深度学习的下一步：Transformer和注意力机制

深度学习的下一步：Transformer和注意力机制

云头条

56+阅读 · 2019年9月14日

一文读懂文本处理中的对抗训练

一文读懂文本处理中的对抗训练

PaperWeekly

22+阅读 · 2019年6月5日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

多模态多任务学习新论文

多模态多任务学习新论文

专知

46+阅读 · 2019年2月9日

半监督多任务学习：Semisupervised Multitask Learning

半监督多任务学习：Semisupervised Multitask Learning

我爱读PAMI

18+阅读 · 2018年4月29日

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

学界 | 多任务学习概述论文：从定义和方法到应用和原理分析

机器之心

12+阅读 · 2018年3月9日

相关论文

Mixtures of Subspaces for Bandwidth Efficient Context Parallel Training

Arxiv

0+阅读 · 6月15日

Distilling Examples into Task Instructions: Enhanced In-Context Learning for Real-World B2B Conversations

Arxiv

0+阅读 · 6月14日

In-Context Learning Is Provably Bayesian Inference: A Generalization Theory for Meta-Learning

Arxiv

0+阅读 · 6月14日

Meta-Learning Transformers to Improve In-Context Generalization

Arxiv

0+阅读 · 6月11日

Task-Aware Structured Memory for Dynamic Multi-modal In-Context Learning

Arxiv

0+阅读 · 6月10日

SynthICL: Scalable In-context Imitation Learning with Synthetic Data

Arxiv

0+阅读 · 6月6日

In-Context Multiple Instance Learning

Arxiv

0+阅读 · 6月4日

Optimal Attention Temperature Improves the Robustness of In-Context Learning under Distribution Shift in High Dimensions

Arxiv

0+阅读 · 5月11日

Transformers Efficiently Perform In-Context Logistic Regression via Normalized Gradient Descent

Arxiv

0+阅读 · 5月7日

Understanding In-Context Learning for Nonlinear Regression with Transformers: Attention as Featurizer

Arxiv

0+阅读 · 5月6日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于上下文精化的并发对象活性的描述及验证

国家自然科学基金

1+阅读 · 2015年12月31日

基于高斯过程模型的多示例多标记学习算法研究

国家自然科学基金

14+阅读 · 2015年12月31日

多标签降维中的多重代价敏感学习问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模多步学习问题的学习分类元系统技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

线上渠道交互对线下渠道绩效的影响：基于双路径的理论和实证研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于示能性视角的信息系统有效使用研究：维度、影响因素和形成机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员