We propose a method for transfer learning in nonparametric regression using a random forest (RF) with distance covariance-based feature weights, assuming the unknown source and target regression functions are sparsely different. Our method obtains residuals from a source domain-trained Centered RF (CRF) in the target domain, then fits another CRF to these residuals with feature splitting probabilities proportional to feature-residual sample distance covariance. We derive an upper bound on the mean square error rate of the procedure as a function of sample sizes and difference dimension, theoretically demonstrating transfer learning benefits in random forests. A major difficulty for transfer learning in random forests is the lack of explicit regularization in the method. Our results explain why shallower trees with preferential selection of features lead to both lower bias and lower variance for fitting a low-dimensional function. We show that in the residual random forest, this implicit regularization is enabled by sample distance covariance. In simulations, we show that the results obtained for the CRFs also hold numerically for the standard RF (SRF) method with data-driven feature split selection. Beyond transfer learning, our results also show the benefit of distance-covariance-based weights on the performance of RF when some features dominate. Our method shows significant gains in predicting the mortality of ICU patients in smaller-bed target hospitals using a large multi-hospital dataset of electronic health records for 200,000 ICU patients.


翻译:本文提出一种非参数回归中的迁移学习方法,该方法采用基于距离协方差特征权重的随机森林,并假设未知的源域与目标域回归函数具有稀疏差异性。我们的方法首先通过源域训练的中心化随机森林在目标域获取残差,随后以特征-残差样本距离协方差为比例的特征分裂概率,拟合另一个中心化随机森林来处理这些残差。我们推导了该过程均方误差率关于样本量与差异维度的上界,从理论上证明了随机森林中迁移学习的优势。随机森林迁移学习的主要困难在于方法中缺乏显式正则化。我们的研究结果解释了为何采用特征优先选择的较浅树结构能够同时降低拟合低维函数时的偏差与方差。研究表明,在残差随机森林中,这种隐式正则化是通过样本距离协方差实现的。在仿真实验中,我们证明中心化随机森林的结论同样适用于采用数据驱动特征分裂选择的标准随机森林方法。除迁移学习外,我们的研究还表明当某些特征占主导地位时,基于距离协方差的权重能够提升随机森林的性能。通过使用包含20万ICU患者的电子健康记录多医院数据集,我们的方法在预测小型目标医院ICU患者死亡率方面展现出显著优势。

0
下载
关闭预览

相关内容

随机森林 指的是利用多棵树对样本进行训练并预测的一种分类器。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【普林斯顿博士论文】大规模模型的迁移学习与优化理论
【AAAI2023】图上的非独立同分布迁移学习
专知会员服务
24+阅读 · 2022年12月25日
迁移学习方法在医学图像领域的应用综述
专知会员服务
61+阅读 · 2022年1月6日
【清华大学龙明盛副教授】迁移学习理论与算法,59页ppt
专知会员服务
84+阅读 · 2020年11月27日
迁移自适应学习最新综述,附21页论文下载
一文了解迁移学习经典算法
AI100
11+阅读 · 2018年8月4日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
【迁移学习】简述迁移学习在深度学习中的应用
产业智能官
15+阅读 · 2018年1月9日
迁移学习在深度学习中的应用
专知
24+阅读 · 2017年12月24日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
美国-以色列-伊朗战争:是否会动用地面部队?
美国协同作战飞机项目新型无人机发动机
专知会员服务
2+阅读 · 4月11日
相关资讯
相关基金
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
31+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员