Agentic Confidence Calibration - 专知论文

会员服务 ·

0

置信度 · 智能体 · 系统 · 基准 · 基准测试 ·

Agentic Confidence Calibration

翻译：智能体置信度校准

Jiaxin Zhang,Caiming Xiong,Chien-Sheng Wu

from arxiv, 37 pages, 15 figures, 12 tables

AI agents are rapidly advancing from passive language models to autonomous systems executing complex, multi-step tasks. Yet their overconfidence in failure remains a fundamental barrier to deployment in high-stakes settings. Existing calibration methods, built for static single-turn outputs, cannot address the unique challenges of agentic systems, such as compounding errors along trajectories, uncertainty from external tools, and opaque failure modes. To address these challenges, we introduce, for the first time, the problem of Agentic Confidence Calibration and propose Holistic Trajectory Calibration (HTC), a novel diagnostic framework that extracts rich process-level features ranging from macro dynamics to micro stability across an agent's entire trajectory. Powered by a simple, interpretable model, HTC consistently surpasses strong baselines in both calibration and discrimination, across eight benchmarks, multiple LLMs, and diverse agent frameworks. Beyond performance, HTC delivers three essential advances: it provides interpretability by revealing the signals behind failure, enables transferability by applying across domains without retraining, and achieves generalization through a General Agent Calibrator (GAC) that achieves the best calibration (lowest ECE) on the out-of-domain GAIA benchmark. Together, these contributions establish a new process-centric paradigm for confidence calibration, providing a framework for diagnosing and enhancing the reliability of AI agents.

翻译：人工智能智能体正迅速从被动的语言模型演变为执行复杂多步骤任务的自主系统。然而，它们在失败情况下的过度自信仍然是高风险场景部署的根本障碍。现有的校准方法专为静态单轮输出设计，无法应对智能体系统的独特挑战，例如轨迹中的误差累积、外部工具的不确定性以及不透明的故障模式。为应对这些挑战，我们首次提出了智能体置信度校准问题，并提出了整体轨迹校准（HTC）——一种新颖的诊断框架，该框架能够从智能体整个轨迹中提取丰富的流程级特征，涵盖从宏观动态到微观稳定性的多个维度。借助一个简单、可解释的模型，HTC在八个基准测试、多种大型语言模型及不同智能体框架中，在校准和判别能力方面均持续超越强基线方法。除性能优势外，HTC还实现了三项重要进展：通过揭示故障背后的信号提供可解释性；无需重新训练即可跨领域应用，实现可迁移性；通过通用智能体校准器（GAC）实现泛化能力，该校准器在跨域GAIA基准测试中取得了最佳校准效果（最低ECE）。这些贡献共同建立了一种以流程为中心的新型置信度校准范式，为诊断和提升人工智能智能体的可靠性提供了框架。

0

相关内容

置信度

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

28+阅读 · 2025年12月11日

《高级AI带来的多智能体风险》最新97页干活技术报告

《高级AI带来的多智能体风险》最新97页干活技术报告

专知会员服务

47+阅读 · 2025年3月4日

《不确定通信条件下的分布式多智能体决策》122页

《不确定通信条件下的分布式多智能体决策》122页

专知会员服务

58+阅读 · 2025年2月26日

【CMU博士论文】通过示范提高智能体决策对人类的透明度，149页pdf

【CMU博士论文】通过示范提高智能体决策对人类的透明度，149页pdf

专知会员服务

29+阅读 · 2024年3月2日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

161+阅读 · 2023年8月23日

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

专知会员服务

32+阅读 · 2023年7月18日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 2月18日

Verifiable Semantics for Agent-to-Agent Communication

Arxiv

0+阅读 · 2月18日

When Visibility Outpaces Verification: Delayed Verification and Narrative Lock-in in Agentic AI Discourse

Arxiv

1+阅读 · 2月11日

Trustworthy Agentic AI Requires Deterministic Architectural Boundaries

Arxiv

0+阅读 · 2月10日

Agentic Uncertainty Reveals Agentic Overconfidence

Arxiv

0+阅读 · 2月6日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Arxiv

0+阅读 · 1月17日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

SafePro: Evaluating the Safety of Professional-Level AI Agents

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

4+阅读 · 今天15:21

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

0+阅读 · 今天15:12

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

2+阅读 · 今天15:06

《无人机蜂群通信技术研究》50页

《无人机蜂群通信技术研究》50页

专知会员服务

4+阅读 · 今天14:55

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

《基于智能体建模与仿真的无人机蜂群模型目标定位涌现行为比较分析》360页

专知会员服务

9+阅读 · 7月18日

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

欧洲智能弹药战略创新管理：迈向制导弹药、巡飞系统与自主无人机蜂群的技术主权研究路线图

专知会员服务

7+阅读 · 7月18日

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

从领域适配到部署与可解释：Berkeley博士论文解析大语言模型真实落地

专知会员服务

10+阅读 · 7月18日

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

综述 | 长程智能体研究全景：基础、演化、框架、优化与前沿

专知会员服务

6+阅读 · 7月18日

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

DARPA拟打造十万规模自主思考作战的AI智能体集群：“受控涌现式分布式人工智能”（DICE）项目

专知会员服务

9+阅读 · 7月17日

《边缘端实时无线感知赋能现场多机器人部署》200页

《边缘端实时无线感知赋能现场多机器人部署》200页

专知会员服务

9+阅读 · 7月17日

战力倍增器：自主武器系统与乌克兰及加沙冲突

战力倍增器：自主武器系统与乌克兰及加沙冲突

专知会员服务

5+阅读 · 7月17日

人工智能赋能战场情报：提速决策进程

人工智能赋能战场情报：提速决策进程

专知会员服务

3+阅读 · 7月17日

《拥抱新兴技术：面向未来军官的教育革新》

《拥抱新兴技术：面向未来军官的教育革新》

专知会员服务

7+阅读 · 7月17日

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

ACM MM 2026 | MAR-GRPO：稳定混合图像生成的强化学习训练

专知会员服务

5+阅读 · 7月17日

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

综述 | 大模型水印理论与部署：来源追踪、攻击鲁棒与可信治理

专知会员服务

6+阅读 · 7月17日

相关VIP内容

《多智能体大语言模型系统的可靠决策研究》

《多智能体大语言模型系统的可靠决策研究》

专知会员服务

41+阅读 · 2月2日

智能体评判者（Agent-as-a-Judge）研究综述

智能体评判者（Agent-as-a-Judge）研究综述

专知会员服务

37+阅读 · 1月9日

智能体工程（Agent Engineering）

智能体工程（Agent Engineering）

专知会员服务

38+阅读 · 2025年12月31日

智能体适应

智能体适应

专知会员服务

28+阅读 · 2025年12月11日

《高级AI带来的多智能体风险》最新97页干活技术报告

《高级AI带来的多智能体风险》最新97页干活技术报告

专知会员服务

47+阅读 · 2025年3月4日

《不确定通信条件下的分布式多智能体决策》122页

《不确定通信条件下的分布式多智能体决策》122页

专知会员服务

58+阅读 · 2025年2月26日

【CMU博士论文】通过示范提高智能体决策对人类的透明度，149页pdf

【CMU博士论文】通过示范提高智能体决策对人类的透明度，149页pdf

专知会员服务

29+阅读 · 2024年3月2日

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

大模型和智能体如何结何？人大最新《基于大型语言模型的自主智能体》综述

专知会员服务

161+阅读 · 2023年8月23日

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

人机协作《评估影响信任校准的因素：信任战略和风险的影响》美空军21页报告

专知会员服务

32+阅读 · 2023年7月18日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

热门VIP内容

开通专知VIP会员享更多权益服务

锻造未来士兵：外骨骼、基因工程与赛博格

《无人机蜂群通信技术研究》50页

深入Project Maven：为何人工智能在战场上依然失灵

《无人机系统（UAS）通信网状网络试验性部署》50页报告

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

【苏黎世联邦理工博士论文】神经系统中的知识不确定性与终身学习，179页pdf

专知

10+阅读 · 2022年10月29日

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

【牛津大学博士论文】强化学习系统的数据高效部署，165页pdf

专知

14+阅读 · 2022年10月15日

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

推荐！【中文版】《可信人工智能：重新思考未来军事指挥》英智库皇家国防安全联合军种研究所2022最新48页报告

专知

69+阅读 · 2022年7月20日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

报名 | 让机器读懂你的意图——人体姿态估计入门

报名 | 让机器读懂你的意图——人体姿态估计入门

人工智能头条

10+阅读 · 2017年9月19日

相关论文

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 2月18日

Verifiable Semantics for Agent-to-Agent Communication

Arxiv

0+阅读 · 2月18日

When Visibility Outpaces Verification: Delayed Verification and Narrative Lock-in in Agentic AI Discourse

Arxiv

1+阅读 · 2月11日

Trustworthy Agentic AI Requires Deterministic Architectural Boundaries

Arxiv

0+阅读 · 2月10日

Agentic Uncertainty Reveals Agentic Overconfidence

Arxiv

0+阅读 · 2月6日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

Agentic Uncertainty Quantification

Arxiv

0+阅读 · 1月22日

Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces

Arxiv

0+阅读 · 1月17日

AgencyBench: Benchmarking the Frontiers of Autonomous Agents in 1M-Token Real-World Contexts

Arxiv

0+阅读 · 1月16日

SafePro: Evaluating the Safety of Professional-Level AI Agents

Arxiv

0+阅读 · 1月13日

相关基金

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

受扰多智能体系统的分布式主动抗干扰协调控制研究

国家自然科学基金

3+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

事件触发机制下随机多智能体系统的有限时间一致性研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员