Feature engineering remains a critical yet challenging bottleneck in machine learning, particularly for tabular data, as identifying optimal features from an exponentially large feature space traditionally demands substantial domain expertise. To address this challenge, we introduce FAMOSE (Feature AugMentation and Optimal Selection agEnt), a novel framework that leverages the ReAct paradigm to autonomously explore, generate, and refine features while integrating feature selection and evaluation tools within an agent architecture. To our knowledge, FAMOSE represents the first application of an agentic ReAct framework to automated feature engineering, especially for both regression and classification tasks. Extensive experiments demonstrate that FAMOSE is at or near the state-of-the-art on classification tasks (especially tasks with more than 10K instances, where ROC-AUC increases 0.23% on average), and achieves the state-of-the-art for regression tasks by reducing RMSE by 2.0% on average, while remaining more robust to errors than other algorithms. We hypothesize that FAMOSE's strong performance is because ReAct allows the LLM context window to record (via iterative feature discovery and evaluation steps) what features did or did not work. This is similar to a few-shot prompt and guides the LLM to invent better, more innovative features. Our work offers evidence that AI agents are remarkably effective in solving problems that require highly inventive solutions, such as feature engineering.


翻译:特征工程仍然是机器学习中关键而具有挑战性的瓶颈,尤其是在表格数据领域,因为从指数级庞大的特征空间中识别最优特征传统上需要大量的领域专业知识。为应对这一挑战,我们提出了FAMOSE(特征增强与最优选择智能体),这是一个新颖的框架,它利用ReAct范式自主探索、生成和优化特征,同时将特征选择与评估工具集成于智能体架构之中。据我们所知,FAMOSE是首个将智能体ReAct框架应用于自动化特征工程的研究,尤其针对回归和分类任务。大量实验表明,FAMOSE在分类任务上达到或接近最先进水平(特别是在实例数超过10K的任务中,ROC-AUC平均提升0.23%),并在回归任务上通过平均降低2.0%的RMSE实现了最优性能,同时相比其他算法具有更强的错误鲁棒性。我们假设FAMOSE的优异性能源于ReAct机制允许大语言模型上下文窗口通过迭代的特征发现与评估步骤记录哪些特征有效或无效。这类似于少样本提示,能够引导大语言模型创造更优、更具创新性的特征。我们的工作证明,人工智能智能体在解决需要高度创造性解决方案的问题(如特征工程)方面具有显著效力。

0
下载
关闭预览

相关内容

React.js(React)是 Facebook 推出的一个用来构建用户界面的 JavaScript 库。

Facebook开源了React,这是该公司用于构建反应式图形界面的JavaScript库,已经应用于构建Instagram网站及 Facebook部分网站。最近出现了AngularJS、MeteorJS 和Polymer中实现的Model-Driven Views等框架,React也顺应了这种趋势。React基于在数据模型之上声明式指定用户界面的理念,用户界面会自动与底层数据保持同步。与前面提及 的框架不同,出于灵活性考虑,React使用JavaScript来构建用户界面,没有选择HTML。Not Rest

推荐算法中的特征工程
专知会员服务
40+阅读 · 2022年9月9日
【干货书】机器学习特征工程,217页pdf
专知会员服务
128+阅读 · 2021年2月6日
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
VIP会员
相关资讯
自动特征工程在推荐系统中的研究
DataFunTalk
10+阅读 · 2019年12月20日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员