Feature engineering remains a cornerstone of tabular data analysis, and Large Language Models (LLMs) have emerged as a promising paradigm for its automation, giving rise to LLM-powered Automated Tabular Feature Engineering (LATTE). However, the field lacks standardized, cost-aware evaluation platforms, and the combinatorial explosion of design choices obscures true algorithmic progress. To bridge these gaps, we systematically deconstruct 15 representative LATTE methods into a unified 6-dimensional taxonomy. Based on this abstraction, we introduce LATTEArena, a standardized, modular, and extensible benchmarking framework that decouples monolithic pipelines into reusable execution blocks. By distilling the massive combinatorial space, we evaluate 24 core LATTE configurations across 7 research questions. Our head-to-head benchmarking goes beyond predictive accuracy to quantify token efficiency and execution robustness, yielding 17 empirical findings on cost-effectiveness trade-offs. Furthermore, we provide 3 concrete recommendations for optimal real-world deployment. By enabling controlled component-level comparisons, LATTEArena shifts the paradigm from ad-hoc prompt engineering to systematic context management. All code, datasets, and over 4,000 execution logs are publicly available to foster a dynamic, community-driven benchmark. Our framework, leaderboard, and all artifacts are hosted on the LATTEArena project website at https://goodenhak.github.io/LATTEArena.


翻译:特征工程始终是表格数据分析的基石,而大语言模型(LLM)已成为实现其自动化的新兴范式,催生了LLM驱动的自动化表格特征工程(LATTE)。然而,该领域缺乏标准化、成本感知的评估平台,且设计空间的组合爆炸掩盖了真正的算法进展。为弥合这些差距,我们系统性地将15种代表性LATTE方法解构为统一的六维分类体系。基于此抽象,我们提出了LATTEArena——一个标准化、模块化且可扩展的基准测试框架,将整体流水线解耦为可复用的执行模块。通过提炼庞大的组合空间,我们针对7项研究问题评估了24种核心LATTE配置。我们的直接对比基准测试超越预测精度,量化了token效率与执行鲁棒性,得出了17项关于成本效益权衡的实证发现。此外,我们提供了3项关于最优实际部署的具体建议。通过实现可控的组件级比较,LATTEArena将范式从即席提示工程转向系统性上下文管理。所有代码、数据集及超过4000份执行日志均已公开,以促进动态、社区驱动的基准测试。我们的框架、排行榜及所有工件均托管于LATTEArena项目官网:https://goodenhak.github.io/LATTEArena。

0
下载
关闭预览

相关内容

大型语言模型(LLM)赋能的知识图谱构建:综述
专知会员服务
56+阅读 · 2025年10月24日
《将大型语言模型(LLM)整合到海军作战规划中》
专知会员服务
131+阅读 · 2024年6月13日
手把手教你用Python实现自动特征工程
量子位
12+阅读 · 2018年9月3日
【干货合集】一文读懂特征工程
七月在线实验室
13+阅读 · 2018年8月2日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员