Measuring Agents in Production - 专知论文

会员服务 ·

0

系统 · 度量 · 构建 · 智能体 · 可控 ·

Measuring Agents in Production

翻译：生产中的智能体度量

Melissa Z. Pan,Negar Arabzadeh,Riccardo Cogo,Yuxuan Zhu,Alexander Xiong,Lakshya A Agrawal,Huanzhi Mao,Emma Shen,Sid Pallerla,Liana Patel,Shu Liu,Tianneng Shi,Xiaoyuan Liu,Jared Quincy Davis,Emmanuele Lacavalla,Alessandro Basile,Shuyi Yang,Paul Castro,Daniel Kang,Koushik Sen,Dawn Song,Joseph E. Gonzalez,Ion Stoica,Matei Zaharia,Marquita Ellis

from arxiv, Accepted to the 43rd International Conference on Machine Learning (ICML 2026) as Oral Presentation

LLM-based agents already operate in production across many industries, yet we lack an understanding of what technical methods make deployments successful. We present the first systematic study of Measuring Agents in Production, MAP, using first-hand data from agent developers. We conducted 20 case studies via in-depth interviews and surveyed 86 deployed systems practitioners across 26 domains. We investigate why organizations build agents, how they build them, how they evaluate them, and their top development challenges. Our study finds that production agents are built using simple, controllable approaches: 68% execute at most 10 steps before human intervention, 70% rely on prompting off-the-shelf models instead of weight tuning, and 74% depend primarily on human evaluation. Reliability (consistent correct behavior over time) remains the top development challenge, which practitioners currently address through systems-level design. MAP documents the current state of production agents, providing the research community with visibility into deployment realities and underexplored research avenues.

翻译：基于大语言模型的智能体已在多个行业的生产环境中运行，但我们对其成功部署的技术方法仍缺乏系统性认知。我们首次提出生产环境中智能体度量（MAP）的系统性研究，采用来自智能体开发者的一手数据。通过深度访谈开展20项案例研究，并对涵盖26个领域的86个已部署系统从业者进行问卷调查，我们深入探究了组织构建智能体的动因、构建方法、评估方式及主要开发挑战。研究发现，生产环境中的智能体采用简单可控的方法构建：68%在人工干预前执行不超过10个步骤，70%依赖对现成模型的提示工程而非权重微调，74%主要依赖人工评估。可靠性（随时间保持稳定正确行为的能力）仍是首要开发挑战，目前从业者主要通过系统级设计加以应对。MAP系统记录了生产智能体的当前状态，为研究界提供了部署现状的可见性，并揭示了亟待探索的研究方向。

0

相关内容

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

33+阅读 · 5月11日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

20+阅读 · 5月5日

多智能体协作机制

多智能体协作机制

专知会员服务

23+阅读 · 4月25日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程的发展现状

智能体工程的发展现状

专知会员服务

26+阅读 · 1月4日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

27+阅读 · 2025年12月11日

大模型智能体：概念、前沿和产业实践

大模型智能体：概念、前沿和产业实践

专知会员服务

79+阅读 · 2024年8月20日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【精益】精益生产与智能制造的联系和支撑

【精益】精益生产与智能制造的联系和支撑

产业智能官

39+阅读 · 2019年9月14日

【工业智能】人工智能在智能制造中的应用

【工业智能】人工智能在智能制造中的应用

产业智能官

22+阅读 · 2019年1月11日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

产业智能官

23+阅读 · 2018年10月12日

深度丨一文读懂智能制造的主线——智能生产（工厂/车间数字化）

深度丨一文读懂智能制造的主线——智能生产（工厂/车间数字化）

人工智能学家

18+阅读 · 2018年6月26日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

Arxiv

0+阅读 · 6月14日

LLM-Powered AI Agent Systems and Their Applications in Industry

Arxiv

0+阅读 · 6月12日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

A Query Engine for the Agents

Arxiv

0+阅读 · 5月27日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月26日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月19日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

Mechanism Plausibility in Generative Agent-Based Modeling

Arxiv

0+阅读 · 5月17日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月8日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

3+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

4+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

9+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

8+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

7+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

9+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

6+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

智能体技能综合综述：分类、技术与应用

智能体技能综合综述：分类、技术与应用

专知会员服务

33+阅读 · 5月11日

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

基础模型驱动的工业智能体：技术成熟度、能力变迁与未竟之挑战

专知会员服务

20+阅读 · 5月5日

多智能体协作机制

多智能体协作机制

专知会员服务

23+阅读 · 4月25日

通用智能体评估的逻辑架构

通用智能体评估的逻辑架构

专知会员服务

22+阅读 · 2月28日

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

智能体化人工智能 (Agentic AI) 的前行之路：挑战与机遇

专知会员服务

43+阅读 · 1月8日

AI 智能体系统：体系架构、应用场景及评估范式

AI 智能体系统：体系架构、应用场景及评估范式

专知会员服务

70+阅读 · 1月6日

智能体工程的发展现状

智能体工程的发展现状

专知会员服务

26+阅读 · 1月4日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

36+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

27+阅读 · 2025年12月11日

大模型智能体：概念、前沿和产业实践

大模型智能体：概念、前沿和产业实践

专知会员服务

79+阅读 · 2024年8月20日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【AI与军事】机器学习的军事应用，一种文献计量视角

【AI与军事】机器学习的军事应用，一种文献计量视角

专知

55+阅读 · 2022年4月25日

【精益】精益生产与智能制造的联系和支撑

【精益】精益生产与智能制造的联系和支撑

产业智能官

39+阅读 · 2019年9月14日

【工业智能】人工智能在智能制造中的应用

【工业智能】人工智能在智能制造中的应用

产业智能官

22+阅读 · 2019年1月11日

【仿真】生产系统仿真软件，实现数字化工厂的利器！

【仿真】生产系统仿真软件，实现数字化工厂的利器！

产业智能官

15+阅读 · 2018年11月1日

深度文本匹配在智能客服中的应用

深度文本匹配在智能客服中的应用

AI100

18+阅读 · 2018年10月24日

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

【智能制造】智能工厂顶层设计和整体规划、智能工厂总体规划与建设

产业智能官

23+阅读 · 2018年10月12日

深度丨一文读懂智能制造的主线——智能生产（工厂/车间数字化）

深度丨一文读懂智能制造的主线——智能生产（工厂/车间数字化）

人工智能学家

18+阅读 · 2018年6月26日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

【智能制造】见识一下某航空企业的智能制造技术架构！

【智能制造】见识一下某航空企业的智能制造技术架构！

产业智能官

13+阅读 · 2017年12月7日

相关论文

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月14日

SkillsVote: Lifecycle Governance of Agent Skills from Collection, Recommendation to Evolution

Arxiv

0+阅读 · 6月14日

LLM-Powered AI Agent Systems and Their Applications in Industry

Arxiv

0+阅读 · 6月12日

AgentBeats: Agentifying Agent Assessment for Openness, Standardization, and Reproducibility

Arxiv

0+阅读 · 6月11日

A Query Engine for the Agents

Arxiv

0+阅读 · 5月27日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月26日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月19日

Code as Agent Harness

Arxiv

0+阅读 · 5月18日

Mechanism Plausibility in Generative Agent-Based Modeling

Arxiv

0+阅读 · 5月17日

A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications

Arxiv

0+阅读 · 5月8日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于MEMS加速度传感器的智能终端手势识别及三维交互模型

国家自然科学基金

6+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

基于动态分层与自学习的多智能体自适应协作模型

国家自然科学基金

17+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员