LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Production, MAP, using first-hand data from agent developers. We conducted 20 case studies via in-depth interviews and surveyed 86 deployed systems practitioners across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and their top development challenges. Our study finds that production agents are built using simple, controllable approaches: 68% execute at most 10 steps before human intervention, 70% rely on prompting off-the-shelf models instead of weight tuning, and 74% depend primarily on human evaluation. Reliability (consistent correct behavior over time) remains the top development challenge, which practitioners currently address through systems-level design. MAP documents the current state of production agents, providing the research community with visibility into deployment realities and underexplored research avenues.


翻译:基于大语言模型的智能体已在多个行业的生产环境中运行,但我们对其成功部署的技术方法仍缺乏系统性认知。我们首次提出生产环境中智能体度量(MAP)的系统性研究,采用来自智能体开发者的一手数据。通过深度访谈开展20项案例研究,并对涵盖26个领域的86个已部署系统从业者进行问卷调查,我们深入探究了组织构建智能体的动因、构建方法、评估方式及主要开发挑战。研究发现,生产环境中的智能体采用简单可控的方法构建:68%在人工干预前执行不超过10个步骤,70%依赖对现成模型的提示工程而非权重微调,74%主要依赖人工评估。可靠性(随时间保持稳定正确行为的能力)仍是首要开发挑战,目前从业者主要通过系统级设计加以应对。MAP系统记录了生产智能体的当前状态,为研究界提供了部署现状的可见性,并揭示了亟待探索的研究方向。

0
下载
关闭预览

相关内容

智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程的发展现状
专知会员服务
26+阅读 · 1月4日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
智能体适应
专知会员服务
27+阅读 · 2025年12月11日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
【精益】精益生产与智能制造的联系和支撑
产业智能官
39+阅读 · 2019年9月14日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
深度文本匹配在智能客服中的应用
AI100
18+阅读 · 2018年10月24日
【智能制造】智能制造的核心——智能决策
产业智能官
12+阅读 · 2018年4月11日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 5月27日
Arxiv
0+阅读 · 5月18日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
智能体技能综合综述:分类、技术与应用
专知会员服务
33+阅读 · 5月11日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
通用智能体评估的逻辑架构
专知会员服务
22+阅读 · 2月28日
AI 智能体系统:体系架构、应用场景及评估范式
智能体工程的发展现状
专知会员服务
26+阅读 · 1月4日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
智能体适应
专知会员服务
27+阅读 · 2025年12月11日
大模型智能体:概念、前沿和产业实践
专知会员服务
79+阅读 · 2024年8月20日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员