Process Reward Agents for Steering Knowledge-Intensive Reasoning - 专知论文

会员服务 ·

0

知识 · 基准 · 准确率 · 检索增强 · 智能体 ·

Process Reward Agents for Steering Knowledge-Intensive Reasoning

翻译：过程奖励智能体引导知识密集型推理

Jiwoong Sohn,Tomasz Sternal,Kenneth Styppa,Torsten Hoefler,Michael Moor

Reasoning in knowledge-intensive domains remains challenging as intermediate steps are often not locally verifiable: unlike math or code, evaluating step correctness may require synthesizing clues across large external knowledge sources. As a result, subtle errors can propagate through reasoning traces, potentially never to be detected. Prior work has proposed process reward models (PRMs), including retrieval-augmented variants, but these methods operate post hoc, scoring completed trajectories, which prevents their integration into dynamic inference procedures. Here, we introduce Process Reward Agents (PRA), a test-time method for providing domain-grounded, online, step-wise rewards to a frozen policy. In contrast to prior retrieval-augmented PRMs, PRA enables search-based decoding to rank and prune candidate trajectories at every generation step. Experiments on multiple medical reasoning benchmarks demonstrate that PRA consistently outperforms strong baselines, achieving 80.8% accuracy on MedQA with Qwen3-4B, a new state of the art at the 4B scale. Importantly, PRA generalizes to unseen frozen policy models ranging from 0.5B to 8B parameters, improving their accuracy by up to 25.7% without any policy model updates. More broadly, PRA suggests a paradigm in which frozen reasoners are decoupled from domain-specific reward modules, allowing the deployment of new backbones in complex domains without retraining.

翻译：知识密集型领域的推理仍然具有挑战性，因为中间步骤通常无法进行局部验证：与数学或代码不同，评估步骤的正确性可能需要综合来自大量外部知识源的线索。因此，细微的错误可能会在推理轨迹中传播，并且可能永远无法被检测到。先前的工作提出了过程奖励模型（PRMs），包括检索增强的变体，但这些方法是在事后进行操作，对完成的轨迹进行评分，这阻碍了它们集成到动态推理过程中。在此，我们引入了过程奖励智能体（PRA），这是一种在测试时为冻结策略提供基于领域、在线、逐步奖励的方法。与先前的检索增强型PRMs相比，PRA支持基于搜索的解码，以便在每个生成步骤中对候选轨迹进行排序和剪枝。在多个医学推理基准上的实验表明，PRA持续优于强基线方法，在Qwen3-4B上于MedQA基准上达到80.8%的准确率，树立了4B规模下的新最优水平。重要的是，PRA可泛化到未见的冻结策略模型（参数规模从0.5B到8B），在无需任何策略模型更新的情况下，将其准确率提升高达25.7%。更广泛地说，PRA提出了一种范式，其中冻结的推理器与特定领域的奖励模块解耦，从而无需重新训练即可在复杂领域部署新的骨干模型。

0

相关内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

专知会员服务

38+阅读 · 2025年4月7日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

知识推理如何做？GMU最新《知识增强的神经机器推理》综述，详述线性与隐形知识推理技术方法

知识推理如何做？GMU最新《知识增强的神经机器推理》综述，详述线性与隐形知识推理技术方法

专知会员服务

48+阅读 · 2023年2月8日

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering

Arxiv

0+阅读 · 4月20日

The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination

Arxiv

0+阅读 · 4月17日

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Arxiv

0+阅读 · 4月17日

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

Arxiv

0+阅读 · 4月16日

Governing Reflective Human-AI Collaboration: A Framework for Epistemic Scaffolding and Traceable Reasoning

Arxiv

0+阅读 · 4月16日

Attention-Aligned Reasoning for Large Language Models

Arxiv

0+阅读 · 3月27日

AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents

Arxiv

0+阅读 · 3月23日

Understanding and Optimizing Multi-Stage AI Inference Pipelines

Arxiv

0+阅读 · 3月20日

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Arxiv

0+阅读 · 3月19日

Knowledge-enhanced Neural Machine Reasoning: A Review

Arxiv

12+阅读 · 2023年2月7日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

35+阅读 · 1月21日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

【ICML2025】通过多智能体反思强化大语言模型推理

【ICML2025】通过多智能体反思强化大语言模型推理

专知会员服务

23+阅读 · 2025年6月11日

大型语言模型推理增强外部知识：综述

大型语言模型推理增强外部知识：综述

专知会员服务

38+阅读 · 2025年6月2日

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

专知会员服务

38+阅读 · 2025年4月7日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

【阿里千问】在数学推理中开发过程奖励模型的经验教训

【阿里千问】在数学推理中开发过程奖励模型的经验教训

专知会员服务

18+阅读 · 2025年1月14日

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

【AAAI2025】通过自适应多方面检索增强，利用大型语言模型进行知识图谱问答

专知会员服务

31+阅读 · 2024年12月26日

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

【WSDM2025】通过多教师知识蒸馏将推理能力转移到小型大语言模型

专知会员服务

20+阅读 · 2024年12月9日

知识推理如何做？GMU最新《知识增强的神经机器推理》综述，详述线性与隐形知识推理技术方法

知识推理如何做？GMU最新《知识增强的神经机器推理》综述，详述线性与隐形知识推理技术方法

专知会员服务

48+阅读 · 2023年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

「知识增强预训练语言模型」最新研究综述

「知识增强预训练语言模型」最新研究综述

专知

18+阅读 · 2022年11月18日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

【AAAI2021】知识图谱增强的预训练模型的生成式常识推理

专知

29+阅读 · 2021年1月25日

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

【KDD2020-Tutorial】因果推理与稳定学习，Causal Inference and Stable Learning

专知

11+阅读 · 2020年8月28日

【SIGIR2020-清华】知识图谱上的增强推荐推理

【SIGIR2020-清华】知识图谱上的增强推荐推理

专知

15+阅读 · 2020年5月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

相关论文

ReTraceQA: Evaluating Reasoning Traces of Small Language Models in Commonsense Question Answering

Arxiv

0+阅读 · 4月20日

The Reasoning Trap: How Enhancing LLM Reasoning Amplifies Tool Hallucination

Arxiv

0+阅读 · 4月17日

ATTNPO: Attention-Guided Process Supervision for Efficient Reasoning

Arxiv

0+阅读 · 4月17日

From Tokens to Steps: Verification-Aware Speculative Decoding for Efficient Multi-Step Reasoning

Arxiv

0+阅读 · 4月16日

Governing Reflective Human-AI Collaboration: A Framework for Epistemic Scaffolding and Traceable Reasoning

Arxiv

0+阅读 · 4月16日

Attention-Aligned Reasoning for Large Language Models

Arxiv

0+阅读 · 3月27日

AgenticRec: End-to-End Tool-Integrated Policy Optimization for Ranking-Oriented Recommender Agents

Arxiv

0+阅读 · 3月23日

Understanding and Optimizing Multi-Stage AI Inference Pipelines

Arxiv

0+阅读 · 3月20日

Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Arxiv

0+阅读 · 3月19日

Knowledge-enhanced Neural Machine Reasoning: A Review

Arxiv

12+阅读 · 2023年2月7日

相关基金

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向健康管理数据的关联型知识深度挖掘方法研究

国家自然科学基金

12+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

分数阶偏微分方程与近场动力学等非局部模型的高保真快速算法与数值分析

国家自然科学基金

1+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员