The glmnet package in R is widely used for lasso estimation because of its computational efficiency. Despite its popularity, glmnet occasionally yields solutions that deviate substantially from the true ones because of the inappropriate default configuration of the algorithm. The accuracy of the obtained solutions can be improved by appropriately tuning the configuration. However, such improvements typically increase computational time, resulting in a tradeoff between accuracy and computational efficiency. Therefore, a systematic approach is required to determine the appropriate configuration. To address this need, we propose a unified data-driven framework specifically designed to optimize the configuration by balancing solution path accuracy and computational cost. Specifically, we generate a large-scale training dataset by measuring the accuracy and computation time of glmnet. Using this dataset, we construct neural networks to predict accuracy and computation time from data characteristics and configuration. For a new dataset, the proposed framework uses the trained networks to explore the configuration space and derive a Pareto front that represents the tradeoff between accuracy and computational cost. This front enables automatic selection of the configuration that maximizes accuracy under a user-specified time constraint. The proposed method is implemented in the R package glmnetconf, available at https://github.com/Shuhei-Muroya/glmnetconf.git.


翻译:R语言中的glmnet包因其计算效率而被广泛用于lasso估计。尽管广受欢迎,但由于算法默认配置不当,glmnet偶尔会产生与真实解显著偏离的结果。通过适当调整配置,可以提高所得解的精度。然而,这种改进通常会增加计算时间,导致精度与计算效率之间的权衡。因此,需要一种系统方法来确定合适的配置。为满足这一需求,我们提出了一个统一的数据驱动框架,专门用于通过平衡解路径精度与计算成本来优化配置。具体而言,我们通过测量glmnet的精度和计算时间生成大规模训练数据集。利用该数据集,我们构建神经网络以根据数据特征和配置预测精度与计算时间。对于新数据集,所提框架使用训练好的网络探索配置空间,并推导出表征精度与计算成本权衡的帕累托前沿。该前沿支持在用户指定的时间约束下自动选择使精度最大化的配置。所提方法已在R包glmnetconf中实现,可通过https://github.com/Shuhei-Muroya/glmnetconf.git获取。

0
下载
关闭预览

相关内容

《大型语言模型指令调优》综述
专知会员服务
74+阅读 · 2023年8月27日
【ICML2023】表示驱动强化学习
专知会员服务
39+阅读 · 2023年6月2日
专知会员服务
22+阅读 · 2021年5月14日
【MIT博士论文】数据高效强化学习,176页pdf
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Arxiv
0+阅读 · 3月11日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(16份)
专知会员服务
6+阅读 · 4月12日
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
12+阅读 · 4月12日
远程空中优势:新一代超视距导弹的兴起
专知会员服务
2+阅读 · 4月12日
大语言模型溯因推理的统一分类学与综述
专知会员服务
2+阅读 · 4月12日
相关资讯
【MIT博士论文】数据高效强化学习,176页pdf
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
20+阅读 · 2020年8月11日
谷歌EfficientNet缩放模型,PyTorch实现登热榜
机器学习算法与Python学习
11+阅读 · 2019年6月4日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
从动力学角度看优化算法:GAN的第三个阶段
PaperWeekly
11+阅读 · 2019年5月13日
机器学习中如何处理不平衡数据?
机器之心
13+阅读 · 2019年2月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员