We present app.build (https://github.com/neondatabase/appdotbuild-agent), an open-source framework that improves LLM-based application generation through systematic validation and structured environments. Our approach combines multi-layered validation pipelines, stack-specific orchestration, and model-agnostic architecture, implemented across three reference stacks. Through evaluation on 30 generation tasks, we demonstrate that comprehensive validation achieves 73.3% viability rate with 30% reaching perfect quality scores, while open-weights models achieve 80.8% of closed-model performance when provided structured environments. The open-source framework has been adopted by the community, with over 3,000 applications generated to date. This work demonstrates that scaling reliable AI agents requires scaling environments, not just models -- providing empirical insights and complete reference implementations for production-oriented agent systems.


翻译:我们提出app.build(https://github.com/neondatabase/appdotbuild-agent),这是一个通过系统性验证与结构化环境来改进基于大语言模型的应用生成的开源框架。我们的方法结合了多层验证流水线、技术栈专用编排机制与模型无关架构,并在三个参考技术栈中实现。通过对30项生成任务的评估,我们证明全面验证可实现73.3%的可用率,其中30%达到完美质量评分;当提供结构化环境时,开源权重模型能达到闭源模型80.8%的性能。该开源框架已被社区采纳,迄今已生成超过3,000个应用。本研究表明,扩展可靠人工智能智能体需要扩展环境而不仅是模型——为面向生产的智能体系统提供了实证见解与完整的参考实现。

0
下载
关闭预览

相关内容

AI 智能体系统:体系架构、应用场景及评估范式
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
【新书】使用AI智能体构建应用程序
专知会员服务
61+阅读 · 2024年10月26日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
《大模型行业可信应用框架研究报告》(附全文)
专知会员服务
39+阅读 · 2024年9月6日
美团:基于跨平台框架Flutter的动态化平台建设
前端之巅
14+阅读 · 2019年6月17日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
设计和实现一款轻量级的爬虫框架
架构文摘
13+阅读 · 2018年1月17日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
美团:基于跨平台框架Flutter的动态化平台建设
前端之巅
14+阅读 · 2019年6月17日
工行基于MySQL构建分布式架构的转型之路
炼数成金订阅号
15+阅读 · 2019年5月16日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
React Native 分包哪家强?看这文就够了!
程序人生
13+阅读 · 2019年1月16日
设计和实现一款轻量级的爬虫框架
架构文摘
13+阅读 · 2018年1月17日
今日头条推荐系统架构演进之路
QCon
32+阅读 · 2017年6月21日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员