The advent of agentic multimodal models has empowered systems to actively interact with external environments. However, current agents suffer from a profound meta-cognitive deficit: they struggle to arbitrate between leveraging internal knowledge and querying external utilities. Consequently, they frequently fall prey to blind tool invocation, resorting to reflexive tool execution even when queries are resolvable from the raw visual context. This pathological behavior precipitates severe latency bottlenecks and injects extraneous noise that derails sound reasoning. Existing reinforcement learning protocols attempt to mitigate this via a scalarized reward that penalizes tool usage. Yet, this coupled formulation creates an irreconcilable optimization dilemma: an aggressive penalty suppresses essential tool use, whereas a mild penalty is entirely subsumed by the variance of the accuracy reward during advantage normalization, rendering it impotent against tool overuse. To transcend this bottleneck, we propose HDPO, a framework that reframes tool efficiency from a competing scalar objective to a strictly conditional one. By eschewing reward scalarization, HDPO maintains two orthogonal optimization channels: an accuracy channel that maximizes task correctness, and an efficiency channel that enforces execution economy exclusively within accurate trajectories via conditional advantage estimation. This decoupled architecture naturally induces a cognitive curriculum-compelling the agent to first master task resolution before refining its self-reliance. Extensive evaluations demonstrate that our resulting model, Metis, reduces tool invocations by orders of magnitude while simultaneously elevating reasoning accuracy.


翻译:智能多模态模型的兴起赋予了系统与外部环境主动交互的能力。然而,当前模型存在深刻的元认知缺陷:它们难以在利用内部知识与查询外部工具之间进行有效仲裁。因此,即使面对可从原始视觉语境中解决的查询,模型也常陷入盲目调用工具的陷阱,采取反射性的工具执行行为。这种病态行为会导致严重的延迟瓶颈,并引入干扰正确推理的额外噪声。现有的强化学习方法试图通过标量化奖励惩罚工具使用来缓解这一问题。然而,这种耦合的优化目标造成了不可调和的困境:激进的惩罚会抑制必要的工具使用,而温和的惩罚在优势归一化过程中完全被准确率奖励的方差所淹没,无法有效遏制工具过度使用。为突破这一瓶颈,我们提出HDPO框架,将工具效率从竞争性标量目标重新定义为严格的条件性目标。通过摒弃奖励标量化,HDPO维持两个正交的优化通道:一个最大化任务正确性的准确率通道,以及一个通过条件优势估计在准确轨迹内强制执行经济性的效率通道。这种解耦架构自然产生认知课程——迫使智能体在完善自我依赖能力之前先掌握任务解决能力。大量实验表明,我们的模型Metis在显著提升推理准确率的同时,将工具调用次数减少数个数量级。

0
下载
关闭预览

相关内容

《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
数据驱动的具身学习探索
专知会员服务
11+阅读 · 2025年2月26日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
53+阅读 · 2024年6月29日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
专访俞栋:多模态是迈向通用人工智能的重要方向
AI科技评论
27+阅读 · 2019年9月9日
这可能是「多模态机器学习」最通俗易懂的介绍
计算机视觉life
113+阅读 · 2018年12月20日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
现代战争的隐蔽系统:伊朗战争十大启示
专知会员服务
0+阅读 · 今天3:58
ICML 2026 | 自回归Boltzmann生成器重塑分子采样
专知会员服务
3+阅读 · 6月26日
GNN跨域综述:从消息传递到图基础模型
专知会员服务
4+阅读 · 6月26日
无人机自主控制与人工智能:系统性综述
专知会员服务
12+阅读 · 6月26日
巡飞弹与反无人机系统——现代战场的两大支柱
《打造“黄金舰队”》57页报告
专知会员服务
4+阅读 · 6月26日
《北约数字教官网络发展路径》128页报告
专知会员服务
3+阅读 · 6月26日
ECCV 2026 | MIMFlow:MIM与归一化流统一图像生成
专知会员服务
7+阅读 · 6月25日
网状网络及其在军事领域的运用
专知会员服务
8+阅读 · 6月25日
无美国参与的欧洲战争方式(万字长文)
专知会员服务
8+阅读 · 6月25日
相关VIP内容
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
面向具身操作的视觉-语言-动作模型综述
专知会员服务
28+阅读 · 2025年8月23日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
数据驱动的具身学习探索
专知会员服务
11+阅读 · 2025年2月26日
通用多模态人工智能:架构、挑战和机遇综述
专知会员服务
53+阅读 · 2024年6月29日
多模态认知计算
专知会员服务
182+阅读 · 2022年9月16日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员