Although AI agents have demonstrated impressive capabilities in long-horizon reasoning, their reliability is severely hampered by the ``Spiral of Hallucination,'' where early epistemic errors propagate irreversibly. Existing methods face a dilemma: uncertainty quantification (UQ) methods typically act as passive sensors, only diagnosing risks without addressing them, while self-reflection mechanisms suffer from continuous or aimless corrections. To bridge this gap, we propose a unified Dual-Process Agentic UQ (AUQ) framework that transforms verbalized uncertainty into active, bi-directional control signals. Our architecture comprises two complementary mechanisms: System 1 (Uncertainty-Aware Memory, UAM), which implicitly propagates verbalized confidence and semantic explanations to prevent blind decision-making; and System 2 (Uncertainty-Aware Reflection, UAR), which utilizes these explanations as rational cues to trigger targeted inference-time resolution only when necessary. This enables the agent to balance efficient execution and deep deliberation dynamically. Extensive experiments on closed-loop benchmarks and open-ended deep research tasks demonstrate that our training-free approach achieves superior performance and trajectory-level calibration. We believe this principled framework AUQ represents a significant step towards reliable agents.


翻译:尽管AI智能体在长程推理中展现出令人印象深刻的能力,但其可靠性受到"幻觉螺旋"的严重制约——早期认知误差会不可逆地传播。现有方法面临两难困境:不确定性量化方法通常作为被动传感器,仅诊断风险而不予解决;而自我反思机制则易陷入持续或盲目的修正循环。为弥合这一鸿沟,我们提出统一的**双过程智能体不确定性量化框架**,将言语化不确定性转化为主动的双向控制信号。该架构包含两个互补机制:**系统一**通过不确定性感知记忆模块,隐式传播言语化置信度与语义解释以规避盲目决策;**系统二**则通过不确定性感知反思模块,将这些解释作为理性线索,仅在必要时触发定向推理时解析。这使得智能体能够动态平衡高效执行与深度思辨。在闭环基准测试和开放式深度研究任务上的大量实验表明,我们这种无需训练的方法实现了卓越的性能与轨迹级校准。我们相信这一原则性框架AUQ标志着向可靠智能体迈出了重要一步。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
【CMU博士论文】校准不确定性量化的方法及其效用解析
专知会员服务
22+阅读 · 2025年9月1日
《不确定通信条件下的分布式多智能体决策》122页
专知会员服务
56+阅读 · 2025年2月26日
【KDD2023教程】不确定性量化在深度学习中的应用
专知会员服务
43+阅读 · 2023年8月19日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 1月22日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员