Multi-task learning is effective for related applications, but its performance can deteriorate when the target sample size is small. Transfer learning can borrow strength from related studies; yet, many existing methods rely on restrictive bounded-difference assumptions between the source and target models. We propose SMART, a spectral transfer method for multi-task linear regression that instead assumes spectral similarity: the target left and right singular subspaces lie within the corresponding source subspaces and are sparsely aligned with the source singular bases. Such an assumption is natural when studies share latent structures and enables transfer beyond the bounded-difference settings. SMART estimates the target coefficient matrix through structured regularization that incorporates spectral information from a source study. Importantly, it requires only a fitted source model rather than the raw source data, making it useful when data sharing is limited. Although the optimization problem is nonconvex, we develop a practical ADMM-based algorithm. We establish general, non-asymptotic error bounds and a minimax lower bound in the noiseless-source regime. Under additional regularity conditions, these results yield near-minimax Frobenius error rates up to logarithmic factors. Simulations confirm improved estimation accuracy and robustness to negative transfer, and analysis of multi-modal single-cell data demonstrates better predictive performance. The Python implementation of SMART, along with the code to reproduce all experiments in this paper, is publicly available at https://github.com/boxinz17/smart.


翻译:多任务学习在相关应用中效果显著,但当目标样本量较小时,其性能可能下降。迁移学习能够借助相关研究的优势,然而现有许多方法依赖于源模型与目标模型之间严格的有界差异假设。我们提出SMART,一种面向多任务线性回归的谱迁移方法,该方法采用谱相似性假设:目标左、右奇异子空间分别包含于对应源子空间中,并与源奇异基稀疏对齐。当研究共享潜在结构时,该假设具备自然合理性,并使得迁移能够突破有界差异场景的限制。SMART通过结构化正则化估计目标系数矩阵,该过程整合了源研究的谱信息。关键在于,该方法仅需已拟合的源模型而非原始源数据,因此特别适用于数据共享受限的场景。尽管优化问题非凸,我们开发了实用的基于ADMM的算法。在无噪声源环境下,我们建立了普适的非渐近误差界以及极小化极大下界。在额外正则性条件下,这些结果可导出接近最优的Frobenius误差率(仅对数因子有差异)。仿真实验验证了该方法在估计精度提升及负迁移鲁棒性方面的优势,多模态单细胞数据分析则展示了其更优的预测性能。SMART的Python实现以及所有实验复现代码已公开于https://github.com/boxinz17/smart。

0
下载
关闭预览

相关内容

多任务学习(MTL)是机器学习的一个子领域,可以同时解决多个学习任务,同时利用各个任务之间的共性和差异。与单独训练模型相比,这可以提高特定任务模型的学习效率和预测准确性。多任务学习是归纳传递的一种方法,它通过将相关任务的训练信号中包含的域信息用作归纳偏差来提高泛化能力。通过使用共享表示形式并行学习任务来实现,每个任务所学的知识可以帮助更好地学习其它任务。
资源受限的大模型高效迁移学习算法研究
专知会员服务
27+阅读 · 2024年11月8日
【ICML2023】基于最优多任务插值的多模态基础模型迁移
专知会员服务
31+阅读 · 2023年4月29日
【清华大学龙明盛副教授】迁移学习理论与算法,59页ppt
专知会员服务
84+阅读 · 2020年11月27日
最新最全最详细中文版-《迁移学习简明手册》pdf分享
专知会员服务
102+阅读 · 2020年9月25日
《迁移学习简明手册》,93页pdf
专知会员服务
138+阅读 · 2019年12月9日
迁移自适应学习最新综述,附21页论文下载
一文了解迁移学习经典算法
AI100
11+阅读 · 2018年8月4日
【免费下载】迁移学习简明手册
新智元
21+阅读 · 2018年4月13日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
A Comprehensive Survey on Transfer Learning
Arxiv
121+阅读 · 2019年11月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
7+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
8+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员