Automated Machine Learning (AutoML) has improved access to machine learning, yet existing techniques often remain limited in flexibility, transparency, and execution reliability. Code-driven AutoML offers a promising direction by synthesizing executable code for preprocessing, model training, and evaluation. However, current LLM-based approaches frequently generate code that is plausible in text yet brittle in execution, insufficiently grounded in the actual dataset, or restricted to narrow solution paths. In this paper, we introduce iML, a multi-agent code-driven AutoML framework designed around three requirements: executability, problem grounding, and broad exploration of valid solutions. iML first analyzes the task and profiles the data, then synthesizes a structured blueprint that guides modular code generation across multiple implementation tracks, including traditional ML,pretrained adaptation, and custom neural architectures. To improve reliability, iML enforces interface checking, dynamic execution, and iterative debugging during integration. We evaluate iML on MLE-BENCH and the newly introduced iML-BENCH, covering diverse Kaggle-style tasks. On MLE-BENCH, iML attains a 90% valid submission rate and a 45% medal rate, and an APS of 0.82, improving the average standardized performance score (APS) over the LLM-based baselines by 52%-273%. On iML-BENCH, it achieves the highest APS and demonstrates robust performance even when task descriptions are substantially stripped. These results establish iML as a reliable and competitive framework for code-driven AutoML.


翻译:摘要:自动机器学习(AutoML)已提升了机器学习的可及性,然而现有技术通常在灵活性、透明性和执行可靠性方面依然受限。代码驱动的AutoML通过合成为预处理、模型训练和评估而设计的可执行代码,提供了一条有前景的路径。然而,当前基于大语言模型的方法生成的代码往往在文本上看似合理,但在执行层面脆弱,缺乏对实际数据集的充分贴合,或局限于狭窄的解决方案路径。本文提出iML——一个围绕可执行性、问题导向及有效解的广泛探索三大需求构建的多智能体代码驱动AutoML框架。iML首先分析任务并剖析数据,随后合成结构化的蓝图,指导跨多个实现轨道(包括传统机器学习、预训练适配和定制神经网络架构)的模块化代码生成。为提高可靠性,iML在集成过程中强制执行接口检查、动态执行与迭代调试。我们在MLE-BENCH和新引入的iML-BENCH上评估iML,涵盖多样化的Kaggle式任务。在MLE-BENCH上,iML达到90%的有效提交率、45%的奖牌率及0.82的APS(平均标准化性能分数),较基于大语言模型的基线提升52%-273%。在iML-BENCH上,iML取得最高APS,且即使在任务描述大幅精简时仍展现出稳健性能。这些结果确立了iML作为代码驱动AutoML领域可靠且具竞争力的框架。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
【慕尼黑大学博士论文】可解释自动化机器学习,200页pdf
专知会员服务
41+阅读 · 2023年12月17日
【CMU博士论文】迈向高效自动机器学习,184页pdf
专知会员服务
35+阅读 · 2023年2月24日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
65+阅读 · 2021年4月23日
专知会员服务
50+阅读 · 2021年3月5日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
概述自动机器学习(AutoML)
人工智能学家
19+阅读 · 2019年8月11日
AutoML研究综述:让AI学习设计AI
机器之心
15+阅读 · 2019年5月7日
【综述】自动机器学习AutoML最新65页综述,带你了解最新进展
中国人工智能学会
48+阅读 · 2019年5月3日
【干货】深入理解自编码器(附代码实现)
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
【慕尼黑大学博士论文】可解释自动化机器学习,200页pdf
专知会员服务
41+阅读 · 2023年12月17日
【CMU博士论文】迈向高效自动机器学习,184页pdf
专知会员服务
35+阅读 · 2023年2月24日
【XAUTOML】可解释自动机器学习,27页ppt
专知会员服务
65+阅读 · 2021年4月23日
专知会员服务
50+阅读 · 2021年3月5日
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
52+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员