LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Production, MAP, using first-hand data from agent developers. We conducted 20 case studies via in-depth interviews and surveyed 306 practitioners across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and their top development challenges. Our study finds that production agents are built using simple, controllable approaches: 68% execute at most 10 steps before human intervention, 70% rely on prompting off-the-shelf models instead of weight tuning, and 74% depend primarily on human evaluation. Reliability (consistent correct behavior over time) remains the top development challenge, which practitioners currently address through systems-level design. MAP documents the current state of production agents, providing the research community with visibility into deployment realities and under-explored research avenues.


翻译:基于大型语言模型(LLM)的智能体已在众多行业的生产环境中运行,然而我们对于何种技术方法能够确保部署成功仍缺乏深入理解。本文首次通过智能体开发者的一手数据,系统性地开展了生产环境智能体评估(MAP)研究。我们通过深度访谈完成了20个案例研究,并对涵盖26个领域的306名从业者进行了问卷调查。我们深入探究了组织构建智能体的动因、构建方式、评估方法及其面临的主要开发挑战。研究发现,生产环境中的智能体普遍采用简单可控的构建方式:68%的智能体在人工干预前最多执行10个步骤,70%依赖对现成模型的提示工程而非权重调优,74%主要依靠人工评估。可靠性(长期保持行为一致性与正确性)仍是首要开发挑战,从业者目前主要通过系统级设计加以应对。MAP研究记录了生产环境智能体的当前发展态势,为学术界揭示了实际部署现状与尚未充分探索的研究方向。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【综述】多智能体强化学习算法理论研究
深度强化学习实验室
15+阅读 · 2020年9月9日
【工业智能】人工智能在智能制造中的应用
产业智能官
22+阅读 · 2019年1月11日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月30日
VIP会员
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
LLM/智能体作为数据分析师:综述
专知会员服务
36+阅读 · 2025年9月30日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
基于大语言模型的智能体优化研究综述
专知会员服务
59+阅读 · 2025年3月25日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
36+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员