LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Production, MAP, using first-hand data from agent developers. We conducted 20 case studies via in-depth interviews and surveyed 306 practitioners across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and their top development challenges. Our study finds that production agents are built using simple, controllable approaches: 68% execute at most 10 steps before human intervention, 70% rely on prompting off-the-shelf models instead of weight tuning, and 74% depend primarily on human evaluation. Reliability (consistent correct behavior over time) remains the top development challenge, which practitioners currently address through systems-level design. MAP documents the current state of production agents, providing the research community with visibility into deployment realities and under-explored research avenues.


翻译:基于大语言模型的智能体已在众多行业的生产环境中运行,然而我们对于何种技术方法能够确保部署成功仍缺乏深入理解。本文通过开发者提供的一手数据,首次系统性地开展了生产环境智能体评估研究。我们通过深度访谈完成了20个案例研究,并对涵盖26个领域的306名从业者进行了问卷调查。我们深入探究了机构开发智能体的动因、构建方法、评估体系以及面临的主要开发挑战。研究发现,生产环境中的智能体普遍采用简单可控的技术路径:68%的智能体在人工干预前最多执行10个步骤,70%依赖现成模型的提示工程而非权重调优,74%主要依靠人工评估。可靠性(长期保持行为一致性与正确性)仍是首要开发挑战,从业者目前主要通过系统级设计加以应对。本研究系统记录了生产环境智能体的发展现状,为学术界揭示了实际部署情况与尚未充分探索的研究方向。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程的发展现状
专知会员服务
25+阅读 · 1月4日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
76+阅读 · 2024年8月20日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【精益】精益生产与智能制造的联系和支撑
产业智能官
39+阅读 · 2019年9月14日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
【智能制造】智能制造的核心——智能决策
产业智能官
12+阅读 · 2018年4月11日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2月6日
Measuring Agents in Production
Arxiv
0+阅读 · 2月3日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程的发展现状
专知会员服务
25+阅读 · 1月4日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
设计和构建强大的大语言模型智能体
专知会员服务
55+阅读 · 2024年10月6日
大模型智能体:概念、前沿和产业实践
专知会员服务
76+阅读 · 2024年8月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员