Modern coding agents pair LLM generators with various tools, including cheap diagnostics and expensive verifiers. The tool-use decisions are typically governed by orchestrators that often use fixed rules and ignore uncertainty. We formulate orchestration as cost-sensitive sequential hypothesis testing: a Bayesian controller maintains a belief over candidate correctness and dynamically decides whether to gather more evidence, refine the candidate, verify it, or stop. Across six generators and nine coding benchmarks, Bayesian control proves to be most valuable when verification is costly and critics are informative but imperfect. Beyond control, the belief state yields an interpretable correctness score that outperforms token-probability and raw tool-success baselines for uncertainty quantification.


翻译:暂无翻译

0
下载
关闭预览

相关内容

AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
25+阅读 · 5月28日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
33+阅读 · 2025年3月27日
Agent视域下的人工智能赋能作战系统
专知会员服务
59+阅读 · 2024年12月15日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
作战 Agent 的学习算法研究进展与发展趋势
专知会员服务
72+阅读 · 2023年10月3日
前沿:水下机器人及其导航系统
科学出版社
11+阅读 · 2019年6月22日
国外有人/无人平台协同作战概述
无人机
124+阅读 · 2019年5月28日
Pupy – 全平台远程控制工具
黑白之道
43+阅读 · 2019年4月26日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
Perseus-BERT——业内性能极致优化的BERT训练方案
云栖社区
15+阅读 · 2019年2月20日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Arxiv
0+阅读 · 6月18日
VIP会员
最新内容
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
6+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
7+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
《国防领域敏感性分析白皮书》
专知会员服务
8+阅读 · 6月25日
综述 | 从问答到任务完成:Agent系统与Harness设计
Agentic RL:框架、实践与长程智能体训练
专知会员服务
10+阅读 · 6月24日
重新思考无人机时代的生存能力
专知会员服务
10+阅读 · 6月24日
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
7+阅读 · 6月24日
在人工智能加速决策环境中拓展OODA循环
专知会员服务
10+阅读 · 6月24日
相关VIP内容
AgentOps综述:智能体系统运维框架
专知会员服务
19+阅读 · 6月4日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
25+阅读 · 5月28日
AI行业专题报告:工具生态逐步完善,通用Agent曙光已现
专知会员服务
33+阅读 · 2025年3月27日
Agent视域下的人工智能赋能作战系统
专知会员服务
59+阅读 · 2024年12月15日
KG-Agent:面向KG复杂推理的高效自治代理框架
专知会员服务
35+阅读 · 2024年6月1日
Al Agent--大模型时代重要落地方向
专知会员服务
107+阅读 · 2024年4月8日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
作战 Agent 的学习算法研究进展与发展趋势
专知会员服务
72+阅读 · 2023年10月3日
相关资讯
前沿:水下机器人及其导航系统
科学出版社
11+阅读 · 2019年6月22日
国外有人/无人平台协同作战概述
无人机
124+阅读 · 2019年5月28日
Pupy – 全平台远程控制工具
黑白之道
43+阅读 · 2019年4月26日
使用强化学习训练机械臂完成人类任务
AI研习社
14+阅读 · 2019年3月23日
Perseus-BERT——业内性能极致优化的BERT训练方案
云栖社区
15+阅读 · 2019年2月20日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
Focal Loss for Dense Object Detection
统计学习与视觉计算组
12+阅读 · 2018年3月15日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
19+阅读 · 2012年12月31日
国家自然科学基金
24+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员