Real-world machine learning on tabular data relies on complex data preparation pipelines for prediction, data integration, augmentation, and debugging. Designing these pipelines requires substantial domain expertise and engineering effort, motivating the question of how large language models (LLMs) can support tabular ML through code synthesis. We introduce SemPipes, a novel declarative programming model that integrates LLM-powered semantic data operators into tabular ML pipelines. Semantic operators specify data transformations in natural language while delegating execution to a runtime system. During training, SemPipes synthesizes custom operator implementations based on data characteristics, operator instructions, and pipeline context. This design enables the automatic optimization of data operations in a pipeline via LLM-based code synthesis guided by evolutionary search. We evaluate SemPipes across diverse tabular ML tasks and show that semantic operators substantially improve end-to-end predictive performance for both expert-designed and agent-generated pipelines, while reducing pipeline complexity. We implement SemPipes in Python and release it at https://github.com/deem-data/sempipes/tree/v1.


翻译:现实世界中基于表格数据的机器学习依赖于复杂的数据准备流程进行预测、数据集成、增强与调试。设计这些流程需要大量领域专业知识和工程投入,这促使我们思考大型语言模型(LLM)如何通过代码生成来支持表格机器学习。本文提出SemPipes,一种新颖的声明式编程模型,将基于LLM的语义数据算子集成到表格机器学习流程中。语义算子以自然语言描述数据转换逻辑,同时将执行委托给运行时系统。在训练过程中,SemPipes根据数据特征、算子指令和流程上下文合成定制化的算子实现。该设计使得通过基于进化搜索引导的LLM代码生成,能够自动优化流程中的数据操作。我们在多种表格机器学习任务上评估SemPipes,结果表明语义算子显著提升了专家设计流程与智能体生成流程的端到端预测性能,同时降低了流程复杂度。我们在Python中实现了SemPipes并将其开源发布于https://github.com/deem-data/sempipes/tree/v1。

0
下载
关闭预览

相关内容

表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
【CIKM2024教程】大语言模型在表格任务中的应用
专知会员服务
23+阅读 · 2024年10月30日
不可错过!CMU《结构化数据机器学习》课程,附Slides
专知会员服务
56+阅读 · 2022年11月2日
17种深度强化学习算法用Pytorch实现
新智元
31+阅读 · 2019年9月16日
【收藏】机器学习的Pytorch实现资源集合【附下载链接】
机器学习算法与Python学习
10+阅读 · 2018年9月8日
机器学习的Pytorch实现资源集合
专知
11+阅读 · 2018年9月1日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关VIP内容
表格数据表示学习综述
专知会员服务
18+阅读 · 2025年4月27日
【CIKM2024教程】大语言模型在表格任务中的应用
专知会员服务
23+阅读 · 2024年10月30日
不可错过!CMU《结构化数据机器学习》课程,附Slides
专知会员服务
56+阅读 · 2022年11月2日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员