Recent advances in tool-integrated language agents have significantly improved their ability to solve complex reasoning tasks. However, existing alignment methods predominantly focus on maximizing task accuracy, while overlooking auxiliary objectives such as tool-use efficiency, which are essential for practical deployment. To address this gap, we introduce ParetoPO, a two-stage multi-objective optimization framework for aligning tool-using large language models (LLMs) under competing objectives. In the first stage, ParetoPO leverages hypervolume-guided dynamic scalarization to adapt reward weights based on global Pareto frontier progress. In the second stage, it replaces scalarized learning signals with Pareto-ranking-based advantage computation, promoting nondominated trajectories through dominance-aware credit assignment. This design enables fine-grained, action-level optimization across multiple conflicting objectives. Experimental results on mathematic reasoning and multi-hop QA tasks show that ParetoPO consistently discovers policies with superior accuracy-efficiency trade-offs compared to static and heuristic baselines.


翻译:近期,集成了工具的语言智能体在解决复杂推理任务方面取得了显著进展。然而,现有对齐方法主要侧重于最大化任务准确性,而忽视了工具使用效率等对实际部署至关重要的辅助目标。为填补这一空白,我们提出了ParetoPO——一个用于对齐多目标竞争中工具性大语言模型(LLMs)的两阶段多目标优化框架。在第一阶段,ParetoPO利用超体积引导的动态标量化方法,根据全局帕累托前沿进展自适应调整奖励权重。在第二阶段,它用基于帕累托排序的优势计算替代标量化的学习信号,通过支配感知的信用分配促进非支配轨迹。该设计能够在多个相互冲突的目标上实现细粒度的、动作层面的优化。在数学推理和多跳问答任务上的实验结果表明,与静态和启发式基线方法相比,ParetoPO始终能够发现具有更优准确率-效率权衡的策略。

0
下载
关闭预览

相关内容

Palantir AIP平台:连接智能体与决策
专知会员服务
55+阅读 · 5月1日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
重磅发布:基于 PyTorch 的深度文本匹配工具 MatchZoo-py
中国科学院网络数据重点实验室
16+阅读 · 2019年8月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
Palantir AIP平台:连接智能体与决策
专知会员服务
55+阅读 · 5月1日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
41+阅读 · 2月2日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
基于大语言模型的智能体优化研究综述
专知会员服务
64+阅读 · 2025年3月25日
走向通用虚拟智能体
专知会员服务
76+阅读 · 2023年11月26日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员