These Are Not All the Features You Are Looking For: A Fundamental Bottleneck in Supervised Pretraining - 专知论文

会员服务 ·

0

预训练 · 表示 · 监督 · 集成 · 迁移学习 ·

These Are Not All the Features You Are Looking For: A Fundamental Bottleneck in Supervised Pretraining

翻译：这些并非您所需的全部特征：监督式预训练中的根本瓶颈

Xingyu Alice Yang,Jianyu Zhang,Léon Bottou

from arxiv, 10 pages, 6 figures, Preprint. Under review

Transfer learning is widely used to adapt large pretrained models to new tasks with only a small amount of new data. However, a challenge persists -- the features from the original task often do not fully cover what is needed for unseen data, especially when the relatedness of tasks is not clear. Since deep learning models tend to learn very sparse representations, they retain only the minimal features required for the initial training while discarding potentially ones for downstream transfer. A theoretical framework developed in this work demonstrates that such pretraining captures inconsistent aspects of the data distribution, therefore, inducing transfer bias. To address this limitation, we propose an inexpensive ensembling strategy that aggregates multiple models to generate richer feature representations. On ResNet, this approach yields a $9\%$ improvement in transfer accuracy without incurring extra pretraining cost. We also present empirical evidence from a range of deep learning studies, confirming that the phenomenon is pervasive across modern deep learning architectures. These results suggests that relying solely on large pretrained networks is not always the most effective way to improve model generalization. Instead, fostering richer, more diverse representations -- e.g. - through model ensembles -- can substantially enhance transfer learning performance.

翻译：迁移学习被广泛用于将大型预训练模型适配到仅需少量新数据的新任务中。然而，一个挑战始终存在——原始任务的特征通常无法完全覆盖未见数据所需的信息，尤其在任务间相关性不明确时。由于深度学习模型倾向于学习极其稀疏的表示，它们仅保留初始训练所需的最小特征集，同时丢弃可能对下游迁移有用的特征。本研究构建的理论框架表明，此类预训练捕捉的是数据分布中不一致的方面，从而引发迁移偏差。为突破这一局限，我们提出一种低成本集成策略，通过聚合多个模型生成更丰富的特征表示。在ResNet上，该方法在不增加预训练成本的情况下实现了$9\%$的迁移准确率提升。我们还通过一系列深度学习研究提供实证证据，证实该现象在现代深度学习架构中普遍存在。这些结果表明，仅依赖大型预训练网络并非提升模型泛化能力的最有效途径。相反，培育更丰富、更多样化的表示——例如通过模型集成——能显著增强迁移学习性能。

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

专知会员服务

11+阅读 · 2025年10月4日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

专知会员服务

24+阅读 · 2020年4月1日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BERT-预训练的强大

BERT-预训练的强大

微信AI

61+阅读 · 2019年3月7日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors

Arxiv

0+阅读 · 3月14日

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Arxiv

0+阅读 · 3月12日

Osmosis Distillation: Model Hijacking with the Fewest Samples

Arxiv

0+阅读 · 3月5日

A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

Arxiv

0+阅读 · 2月23日

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

Arxiv

0+阅读 · 2月20日

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Arxiv

0+阅读 · 2月19日

Unlocking [CLS] Features for Continual Post-Training

Arxiv

0+阅读 · 2月19日

Residual Feature Integration is Sufficient to Prevent Negative Transfer

Arxiv

0+阅读 · 2月14日

Transporting Task Vectors across Different Architectures without Training

Arxiv

0+阅读 · 2月13日

Dense Feature Learning via Linear Structure Preservation in Medical Data

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

最新内容

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

0+阅读 · 今天14:41

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

2+阅读 · 今天14:37

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

2+阅读 · 今天14:13

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

2+阅读 · 今天14:11

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

2+阅读 · 今天14:05

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

1+阅读 · 今天13:23

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

1+阅读 · 今天13:11

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

14+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

7+阅读 · 7月19日

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

8+阅读 · 7月19日

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

11+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

8+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

13+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

9+阅读 · 7月18日

相关VIP内容

用于多模态对齐的基础模型表征潜力：一项综述

用于多模态对齐的基础模型表征潜力：一项综述

专知会员服务

18+阅读 · 2025年10月8日

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

专知会员服务

11+阅读 · 2025年10月4日

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

自监督为何有效？243页普林斯顿博士论文《理解自监督表示学习》，全面阐述对比学习、语言模型和自我预测三类方法

专知会员服务

69+阅读 · 2023年1月29日

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

【斯坦福马腾宇】理解预训练的三个方面:自监督损失、归纳偏差和内隐偏差

专知会员服务

39+阅读 · 2022年11月8日

视觉语言多模态预训练综述

视觉语言多模态预训练综述

专知会员服务

122+阅读 · 2022年7月11日

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

【NeurIPS 2020-Hinton论文】大型自监督模型是强有力的半监督学习器

专知会员服务

25+阅读 · 2020年11月4日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

【CVPR2020-普林斯顿】自监督预训练对于视觉任务到底有什么用？ Self-Supervised Pretraining

专知会员服务

24+阅读 · 2020年4月1日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

印度精确打击与指挥架构的断层

美空军AI完成F-16战斗机自主空战历史性试飞

相关资讯

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BERT-预训练的强大

BERT-预训练的强大

微信AI

61+阅读 · 2019年3月7日

自然语言处理中的深度迁移学习——文本预训练

自然语言处理中的深度迁移学习——文本预训练

专知

16+阅读 · 2018年12月10日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

手动特征工程已经OUT了！自动特征工程才是改进机器学习的方式

AI100

11+阅读 · 2018年9月4日

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

资源 | GitHub新项目：轻松使用多种预训练卷积网络抽取图像特征

机器之心

12+阅读 · 2018年4月16日

迁移学习在深度学习中的应用

迁移学习在深度学习中的应用

专知

24+阅读 · 2017年12月24日

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

什么是迁移学习？它都用在深度学习的哪些场景上？这篇文章替你讲清楚了

AI100

16+阅读 · 2017年12月23日

特征工程的特征理解（一）

特征工程的特征理解（一）

机器学习研究会

10+阅读 · 2017年10月23日

相关论文

Understanding the Emergence of Seemingly Useless Features in Next-Token Predictors

Arxiv

0+阅读 · 3月14日

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Arxiv

0+阅读 · 3月12日

Osmosis Distillation: Model Hijacking with the Fewest Samples

Arxiv

0+阅读 · 3月5日

A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

Arxiv

0+阅读 · 2月23日

Gradient-Sign Masking for Task Vector Transport Across Pre-Trained Models

Arxiv

0+阅读 · 2月20日

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Arxiv

0+阅读 · 2月19日

Unlocking [CLS] Features for Continual Post-Training

Arxiv

0+阅读 · 2月19日

Residual Feature Integration is Sufficient to Prevent Negative Transfer

Arxiv

0+阅读 · 2月14日

Transporting Task Vectors across Different Architectures without Training

Arxiv

0+阅读 · 2月13日

Dense Feature Learning via Linear Structure Preservation in Medical Data

Arxiv

0+阅读 · 2月7日

相关基金

基于复杂图知识表示的终身强化学习研究

国家自然科学基金

40+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于迁移学习的图像隐写分析新方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员