Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.


翻译:奖励引导的搜索方法通过有效指导在复杂动作空间上的采样与探索,已展现出增强工具使用智能体的强大潜力。作为核心设计,这些搜索方法利用过程奖励模型(PRMs)提供步骤级奖励,从而实现更细粒度的监控。然而,当前缺乏针对工具使用场景下PRMs的系统性、可靠评估基准。本文中,我们介绍了ToolPRMBench,一个专门用于评估工具使用智能体PRMs的大规模基准。ToolPRMBench构建于多个代表性工具使用基准之上,并将智能体轨迹转换为步骤级测试用例。每个用例包含交互历史、一个正确动作、一个看似合理但不正确的替代动作,以及相关的工具元数据。我们分别利用离线采样来隔离局部单步错误,并利用在线采样从完整的智能体运行轨迹中捕获真实的多步失败情况。我们提出了一个多LLM验证流程以减少标签噪声并确保数据质量。我们在ToolPRMBench上对大型语言模型、通用PRMs以及工具专用PRMs进行了广泛实验。结果揭示了PRMs在有效性上的显著差异,并突显了专用PRMs在工具使用方面的潜力。代码与数据将在 https://github.com/David-Li0406/ToolPRMBench 发布。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
深度强化学习中的奖励模型:综述
专知会员服务
29+阅读 · 2025年6月20日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
关于大语言模型驱动的推荐系统智能体的综述
专知会员服务
28+阅读 · 2025年2月17日
【阿里千问】在数学推理中开发过程奖励模型的经验教训
基于大型语言模型的软件工程智能体综述
专知会员服务
58+阅读 · 2024年9月6日
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Exploring Reasoning Reward Model for Agents
VIP会员
相关VIP内容
相关资讯
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
18+阅读 · 2020年9月1日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
详解 | 推荐系统的工程实现
AI100
42+阅读 · 2019年3月15日
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
推荐系统
炼数成金订阅号
28+阅读 · 2019年1月17日
相关基金
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员