Combining pre-trained models via localized model averaging - 专知论文

会员服务 ·

0

模型平均 · 预训练 · 预训练模型 · 局部模型 · 样本 ·

Combining pre-trained models via localized model averaging

翻译：通过局部模型平均组合预训练模型

Ziwen Gao,Baihua He,Yuhong Yang

Many pre-trained models (PTMs) are available in modern applications. Because different PTMs are often trained on different datasets, their performances can vary substantially for different new tasks, and the ranking of the candidates may depend heavily on the input. Motivated by this, we propose a localized model averaging method with weights modeled as functions of the covariates, making it substantially more versatile than existing model averaging methods. This formulation allows the model averaging procedure to adaptively capture the varying relative advantages of different PTMs across heterogeneous contexts. Specifically, we learn flexible local weights under a general loss framework that accommodates a broad class of prediction tasks. We further establish the asymptotic optimality of the proposed method for both in-sample and out-of-sample risks, as well as the consistency of the estimated weights. Extensive numerical experiments further demonstrate the effectiveness of the proposed method.

翻译：现代应用中存在大量预训练模型。由于不同预训练模型通常在不同数据集上训练，它们在不同新任务上的表现可能差异显著，且候选模型的排名高度依赖于输入数据。受此启发，我们提出一种局部模型平均方法，其权重被建模为协变量的函数，这使得该方法比现有模型平均方法更具通用性。该公式允许模型平均过程自适应地捕捉不同预训练模型在异质情境下的相对优势变化。具体而言，我们在适用于广泛预测任务的通用损失框架下学习灵活的局部权重。我们进一步证明了所提方法在样本内和样本外风险方面的渐近最优性，以及估计权重的一致性。大量数值实验也验证了所提方法的有效性。

0

相关内容

模型平均

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

《多模态持续预训练实用指南》，52页pdf

《多模态持续预训练实用指南》，52页pdf

专知会员服务

24+阅读 · 2024年9月3日

预训练视觉模型的参数高效微调

预训练视觉模型的参数高效微调

专知会员服务

32+阅读 · 2024年3月19日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

Learning task-specific subspaces via interventional post-training of speech foundation models

Arxiv

0+阅读 · 6月16日

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

Arxiv

0+阅读 · 6月12日

Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation

Arxiv

0+阅读 · 6月7日

Enhanced localized conformal prediction with imperfect auxiliary information

Arxiv

0+阅读 · 6月7日

Parameter-Free and Group Conditional Online Conformal Prediction

Arxiv

0+阅读 · 6月2日

Training a Predictive Coding Network on ImageNet using Equilibrium Propagation

Arxiv

0+阅读 · 6月2日

Optimal Representation Size: High-Dimensional Analysis of Pretraining and Linear Probing

Arxiv

0+阅读 · 5月19日

Double Descent and Emergent Smoothing in Model Averaging Prediction

Arxiv

0+阅读 · 5月13日

Synergistic Benefits of Joint Molecule Generation and Property Prediction

Arxiv

0+阅读 · 5月8日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

VIP会员

文章信息

相关主题

预训练模型

最新内容

从采集到决策：美军视角下的战术情报范式重构

从采集到决策：美军视角下的战术情报范式重构

专知会员服务

1+阅读 · 今天2:42

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

专知会员服务

1+阅读 · 今天2:37

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

专知会员服务

2+阅读 · 今天2:23

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

专知会员服务

5+阅读 · 今天2:21

《履带式无人地面战车技术发展现状》

《履带式无人地面战车技术发展现状》

专知会员服务

2+阅读 · 今天1:46

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

8+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

相关VIP内容

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

17+阅读 · 2025年5月5日

《多模态持续预训练实用指南》，52页pdf

《多模态持续预训练实用指南》，52页pdf

专知会员服务

24+阅读 · 2024年9月3日

预训练视觉模型的参数高效微调

预训练视觉模型的参数高效微调

专知会员服务

32+阅读 · 2024年3月19日

多模态预训练模型综述

多模态预训练模型综述

专知会员服务

94+阅读 · 2023年11月20日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

最新「基于Transformer的预训练模型」综述论文，42页pdf304篇文献

专知会员服务

110+阅读 · 2021年8月13日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

【Amazon】使用预先训练的Transformer模型进行数据增强，Data Augmentation using Pre-trained Transformer Models

专知会员服务

51+阅读 · 2020年3月7日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

热门VIP内容

开通专知VIP会员享更多权益服务

乌克兰“德尔塔”系统揭示无人机、数据与领导力如何重塑现代安全格局

《北约概念开发与实验（CD&E）手册：概念开发者工具箱》100页手册

从采集到决策：美军视角下的战术情报范式重构

大规模作战中的参谋流程：作为联合兵种作战组成部分的目标锁定

相关资讯

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

多模态怎么用自监督？爱丁堡等最新《自监督多模态学习》综述，详述目标函数、数据对齐和模型架构

专知

10+阅读 · 2023年4月6日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Amazon】使用预训练Transformer模型进行数据增强

【Amazon】使用预训练Transformer模型进行数据增强

专知

12+阅读 · 2020年3月6日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

一大批中文（BERT等）预训练模型等你认领！

一大批中文（BERT等）预训练模型等你认领！

PaperWeekly

15+阅读 · 2019年6月25日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关论文

Learning task-specific subspaces via interventional post-training of speech foundation models

Arxiv

0+阅读 · 6月16日

Beyond the Training Distribution: Evaluating Predictions Under Distribution Shift and Selection Bias

Arxiv

0+阅读 · 6月12日

Rank Intervals for Leaderboards: A Hierarchical Framework for Model Evaluation

Arxiv

0+阅读 · 6月7日

Enhanced localized conformal prediction with imperfect auxiliary information

Arxiv

0+阅读 · 6月7日

Parameter-Free and Group Conditional Online Conformal Prediction

Arxiv

0+阅读 · 6月2日

Training a Predictive Coding Network on ImageNet using Equilibrium Propagation

Arxiv

0+阅读 · 6月2日

Optimal Representation Size: High-Dimensional Analysis of Pretraining and Linear Probing

Arxiv

0+阅读 · 5月19日

Double Descent and Emergent Smoothing in Model Averaging Prediction

Arxiv

0+阅读 · 5月13日

Synergistic Benefits of Joint Molecule Generation and Property Prediction

Arxiv

0+阅读 · 5月8日

Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey

Arxiv

25+阅读 · 2023年2月20日

相关基金

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

含非正态及缺失数据的结构方程模型分析

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

函数数据变换模型及降维方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多模态信息集成的组合预测模型及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

高维数据下的模型平均方法

国家自然科学基金

6+阅读 · 2014年12月31日

测量误差数据下约束线性模型的有偏估计及变量选择研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向地理模型集成与运行的数据适配方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员