Recent advances in code generation models have unlocked unprecedented opportunities for automating feature engineering, yet their adoption in real-world ML teams remains constrained by critical challenges: (i) the scarcity of datasets capturing the iterative and complex coding processes of production-level feature engineering, (ii) limited integration and personalization of widely used coding agents, such as CoPilot and Devin, with a team's unique tools, codebases, workflows, and practices, and (iii) suboptimal human-AI collaboration due to poorly timed or insufficient feedback. We address these challenges with a planner-guided, constrained-topology multi-agent framework that generates code for repositories in a multi-step fashion. The LLM-powered planner leverages a team's environment, represented as a graph, to orchestrate calls to available agents, generate context-aware prompts, and use downstream failures to retroactively correct upstream artifacts. It can request human intervention at critical steps, ensuring generated code is reliable, maintainable, and aligned with team expectations. On a novel in-house dataset, our approach achieves 38% and 150% improvement in the evaluation metric over manually crafted and unplanned workflows respectively. In practice, when building features for recommendation models serving over 120 million users, our approach has delivered real-world impact by reducing feature engineering cycles from three weeks to a single day.


翻译:近期代码生成模型的进展为特征工程自动化带来了前所未有的机遇,然而其在真实世界机器学习团队中的采用仍受限于以下关键挑战:(i) 缺乏能够捕捉生产级特征工程中迭代式复杂编码过程的数据集;(ii) 广泛使用的编码智能体(如CoPilot和Devin)与团队特有的工具、代码库、工作流程及实践之间的集成与个性化程度有限;(iii) 由于反馈时机不当或反馈不足导致的人机协作效率低下。我们通过一个规划引导的、约束拓扑的多智能体框架来解决这些挑战,该框架以多步骤方式为代码仓库生成代码。基于大语言模型的规划器利用以图结构表示的团队环境,协调对可用智能体的调用、生成上下文感知的提示,并利用下游故障追溯性地修正上游产出物。它能在关键步骤请求人工干预,确保生成的代码可靠、可维护且符合团队预期。在一个新颖的内部数据集上,我们的方法在评估指标上分别比人工构建的工作流程和无规划工作流程提升了38%和150%。在实际应用中,在为服务超过1.2亿用户的推荐模型构建特征时,我们的方法已产生实际影响,将特征工程周期从三周缩短至一天。

0
下载
关闭预览

相关内容

代码(Code)是专知网的一个重要知识资料文档板块,旨在整理收录论文源代码、复现代码,经典工程代码等,便于用户查阅下载使用。
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
智能体化多模态大语言模型综述
专知会员服务
38+阅读 · 2025年10月14日
推荐算法中的特征工程
专知会员服务
40+阅读 · 2022年9月9日
新书《面向机器学习和数据分析的特征工程》,419页pdf
专知会员服务
144+阅读 · 2019年10月10日
一文看懂常用特征工程方法
AI研习社
17+阅读 · 2018年5月2日
特征工程的特征理解(一)
机器学习研究会
10+阅读 · 2017年10月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员