Classical machine learning models, such as linear models and tree-based models, are widely used in industry. These models are sensitive to data distribution, thus feature preprocessing, which transforms features from one distribution to another, is a crucial step to ensure good model quality. Manually constructing a feature preprocessing pipeline is challenging because data scientists need to make difficult decisions about which preprocessors to select and in which order to compose them. In this paper, we study how to automate feature preprocessing (Auto-FP) for tabular data. Due to the large search space, a brute-force solution is prohibitively expensive. To address this challenge, we interestingly observe that Auto-FP can be modelled as either a hyperparameter optimization (HPO) or a neural architecture search (NAS) problem. This observation enables us to extend a variety of HPO and NAS algorithms to solve the Auto-FP problem. We conduct a comprehensive evaluation and analysis of 15 algorithms on 45 public ML datasets. Overall, evolution-based algorithms show the leading average ranking. Surprisingly, the random search turns out to be a strong baseline. Many surrogate-model-based and bandit-based search algorithms, which achieve good performance for HPO and NAS, do not outperform random search for Auto-FP. We analyze the reasons for our findings and conduct a bottleneck analysis to identify the opportunities to improve these algorithms. Furthermore, we explore how to extend Auto-FP to support parameter search and compare two ways to achieve this goal. In the end, we evaluate Auto-FP in an AutoML context and discuss the limitations of popular AutoML tools. To the best of our knowledge, this is the first study on automated feature preprocessing. We hope our work can inspire researchers to develop new algorithms tailored for Auto-FP.


翻译:经典机器学习模型(如线性模型和基于树的模型)在工业界被广泛应用。这些模型对数据分布敏感,因此特征预处理(将特征从一种分布转换为另一种分布)成为保障模型质量的关键步骤。手动构建特征预处理管道极具挑战性,因为数据科学家需要审慎决策选择哪些预处理器以及如何编排其顺序。本文研究如何实现表格数据的自动化特征预处理(Auto-FP)。由于搜索空间庞大,暴力求解方法成本过高。为应对这一挑战,我们发现Auto-FP可被建模为超参数优化(HPO)或神经架构搜索(NAS)问题。这一发现使我们能够将多种HPO和NAS算法扩展应用于Auto-FP问题。我们在45个公开机器学习数据集上对15种算法进行了全面评估与分析。总体而言,基于进化(evolution)的算法表现出领先的平均排名。令人惊讶的是,随机搜索成为强基线方法。许多在HPO和NAS中表现优异的基于代理模型(surrogate model)和基于多臂赌博机(bandit)的搜索算法,在Auto-FP中并未超越随机搜索。我们分析这一发现的原因,并通过瓶颈分析识别改进这些算法的机会。此外,我们探索了如何扩展Auto-FP以支持参数搜索,并比较了实现该目标的两种方式。最后,我们在AutoML背景下评估Auto-FP,并讨论主流AutoML工具的局限性。据我们所知,这是首次关于自动化特征预处理的系统性研究。我们期望这项工作能启发研究者开发专为Auto-FP设计的新算法。

0
下载
关闭预览

相关内容

领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
专知会员服务
123+阅读 · 2020年12月9日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
2+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
4+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
3+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
领域自适应研究综述
专知会员服务
55+阅读 · 2021年5月5日
专知会员服务
123+阅读 · 2020年12月9日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员