As AI agents transition from human-supervised copilots to autonomous platform infrastructure, the ability to analyze their reasoning behavior across populations of investigations becomes a pressing infrastructure requirement. Existing operational tooling addresses adjacent needs effectively: state checkpoint systems enable fault tolerance; observability platforms provide execution traces for debugging; telemetry standards ensure interoperability. What current systems do not natively provide as a first-class, schema-level primitive is structured reasoning provenance -- normalized, queryable records of why the agent chose each action, what it concluded from each observation, how each conclusion shaped its strategy, and which evidence supports its final verdict. This paper introduces the Agent Execution Record (AER), a structured reasoning provenance primitive that captures intent, observation, and inference as first-class queryable fields on every step, alongside versioned plans with revision rationale, evidence chains, structured verdicts with confidence scores, and delegation authority chains. We formalize the distinction between computational state persistence and reasoning provenance, argue that the latter cannot in general be faithfully reconstructed from the former, and show how AERs enable population-level behavioral analytics: reasoning pattern mining, confidence calibration, cross-agent comparison, and counterfactual regression testing via mock replay. We present a domain-agnostic model with extensible domain profiles, a reference implementation and SDK, and outline an evaluation methodology informed by preliminary deployment on a production platformized root cause analysis agent.


翻译:随着AI智能体从人类监督的副驾角色转向自主平台基础设施,在群体调查层面分析其推理行为的能力成为迫切的基础设施需求。现有运维工具能有效处理相邻需求:状态检查点系统实现容错机制;可观测性平台提供用于调试的执行轨迹;遥测标准确保互操作性。当前系统未能原生提供的头等模式级原语是结构化推理溯源——将智能体选择每个动作的原因、从每个观察中得出的结论、每个结论如何影响其策略、以及支持最终裁决的证据,转化为规范化、可查询的记录。本文提出智能体执行记录(AER),这是一种结构化推理溯源原语,将意图、观察和推理作为每个步骤中的头等可查询字段进行捕获,同时包含带修订依据的版本化计划、证据链、带置信分数的结构化裁决,以及授权链。我们形式化界定了计算状态持久化与推理溯源之间的区别,论证后者通常无法从前者忠实地重建,并展示AER如何实现群体级行为分析:推理模式挖掘、置信度校准、跨智能体比较,以及通过模拟回放进行反事实回归测试。我们提出一个带有可扩展领域配置文件的领域无关模型、一个参考实现及SDK,并概述基于某生产级根因分析智能体平台初步部署所形成的评估方法论。

1
下载
关闭预览

相关内容

AI 智能体系统:体系架构、应用场景及评估范式
AI专题·Agent:智能体基建厚积薄发,商业化应用曙光乍现
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
完备的 AI 学习路线,最详细的资源整理!
新智元
18+阅读 · 2019年5月4日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员