Process Reward Models (PRMs) have achieved remarkable success in augmenting the reasoning capabilities of Large Language Models (LLMs) within static domains such as mathematics. However, their potential in dynamic data analysis tasks remains underexplored. In this work, we first present a empirical study revealing that general-domain PRMs struggle to supervise data analysis agents. Specifically, they fail to detect silent errors, logical flaws that yield incorrect results without triggering interpreter exceptions, and erroneously penalize exploratory actions, mistaking necessary trial-and-error exploration for grounding failures. To bridge this gap, we introduce DataPRM, a novel environment-aware generative process reward model that (1) can serve as an active verifier, autonomously interacting with the environment to probe intermediate execution states and uncover silent errors, and (2) employs a reflection-aware ternary reward strategy that distinguishes between correctable grounding errors and irrecoverable mistakes. We design a scalable pipeline to construct over 8K high-quality training instances for DataPRM via diversity-driven trajectory generation and knowledge-augmented step-level annotation. Experimental results demonstrate that DataPRM improves downstream policy LLMs by 7.21% on ScienceAgentBench and 11.28% on DABStep using Best-of-N inference. Notably, with only 4B parameters, DataPRM outperforms strong baselines, and exhibits robust generalizability across diverse Test-Time Scaling strategies. Furthermore, integrating DataPRM into Reinforcement Learning yields substantial gains over outcome-reward baselines, achieving 78.73% on DABench and 64.84% on TableBench, validating the effectiveness of process reward supervision. Code is available at https://github.com/zjunlp/DataMind.


翻译:过程奖励模型(PRMs)在静态领域(如数学)中增强大语言模型(LLMs)推理能力方面已取得显著成功。然而,它们在动态数据分析任务中的潜力尚未得到充分探索。本文首先通过实证研究发现,通用领域的PRMs难以有效监督数据分析智能体:具体而言,它们无法检测静默错误(即导致错误结果但未触发解释器异常的逻辑缺陷),且会错误地将必要的试错探索行为视为接地失败而加以惩罚。为解决这一问题,我们提出DataPRM——一种新型环境感知生成式过程奖励模型,具备两大核心能力:(1)作为主动验证器,自主与环境交互以探测中间执行状态并发现静默错误;(2)采用基于反思的三元奖励策略,区分可纠正的接地错误与不可恢复的失误。我们设计了一套可扩展的数据流水线,通过多样性驱动的轨迹生成与知识增强的步骤级标注,构建了超过8000个高质量训练实例。实验结果表明,在Best-of-N推理策略下,DataPRM使下游策略LLM在ScienceAgentBench和DABStep上分别提升7.21%和11.28%。值得注意的是,仅40亿参数的DataPRM即超越多个强基线模型,并在多种测试时缩放策略中展现出稳健的泛化能力。此外,将DataPRM集成至强化学习框架后,其在DABench和TableBench上分别达到78.73%和64.84%的显著性能提升,优于基于结果奖励的基线方法,验证了过程奖励监督的有效性。代码已开源:https://github.com/zjunlp/DataMind。

0
下载
关闭预览

相关内容

LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
自进化智能体综述:通往人工超级智能之路
专知会员服务
38+阅读 · 2025年7月30日
【博士论文】强化学习智能体的奖励函数设计
专知会员服务
48+阅读 · 2025年4月8日
【阿里千问】在数学推理中开发过程奖励模型的经验教训
强化学习《奖励函数设计: Reward Shaping》详细解读
深度强化学习实验室
20+阅读 · 2020年9月1日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员