PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR - 专知论文

会员服务 ·

0

搜索 · 论文 · 科研论文 · 问答 · 系统 ·

PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR

翻译：PaperSearchQA：基于RLVR的科研论文搜索与推理学习

James Burgess,Jan N. Hansen,Duo Peng,Yuhui Zhang,Alejandro Lozano,Min Woo Sun,Emma Lundberg,Serena Yeung-Levy

from arxiv, EACL 2026

Search agents are language models (LMs) that reason and search knowledge bases (or the web) to answer questions; recent methods supervise only the final answer accuracy using reinforcement learning with verifiable rewards (RLVR). Most RLVR search agents tackle general-domain QA, which limits their relevance to technical AI systems in science, engineering, and medicine. In this work we propose training agents to search and reason over scientific papers -- this tests technical question-answering, it is directly relevant to real scientists, and the capabilities will be crucial to future AI Scientist systems. Concretely, we release a search corpus of 16 million biomedical paper abstracts and construct a challenging factoid QA dataset called PaperSearchQA with 60k samples answerable from the corpus, along with benchmarks. We train search agents in this environment to outperform non-RL retrieval baselines; we also perform further quantitative analysis and observe interesting agent behaviors like planning, reasoning, and self-verification. Our corpus, datasets, and benchmarks are usable with the popular Search-R1 codebase for RLVR training and released on https://huggingface.co/collections/jmhb/papersearchqa. Finally, our data creation methods are scalable and easily extendable to other scientific domains.

翻译：搜索代理是通过推理和搜索知识库（或网络）来回答问题的语言模型；近期方法仅使用可验证奖励强化学习监督最终答案的准确性。大多数RLVR搜索代理处理通用领域问答，这限制了其在科学、工程和医学领域技术人工智能系统中的适用性。本工作提出训练代理在科研论文中进行搜索与推理——这既能检验技术问答能力，又直接关联实际科研需求，相关能力对未来AI科学家系统至关重要。具体而言，我们发布了包含1600万篇生物医学论文摘要的搜索语料库，并构建了包含6万个可回答样本的挑战性事实型问答数据集PaperSearchQA及基准测试。在此环境中训练的搜索代理性能优于非强化学习检索基线；我们进一步开展定量分析，观察到代理表现出规划、推理和自我验证等有趣行为。本研究的语料库、数据集和基准测试可通过流行的RLVR训练代码库Search-R1使用，并发布于https://huggingface.co/collections/jmhb/papersearchqa。最后，我们的数据创建方法具有可扩展性，可轻松延伸至其他科学领域。

0

相关内容

互联网

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

GNN与RL如何结合？KSU大学最新《基于图神经网络的强化学习》综述，阐述RL+GNN算法与应用

GNN与RL如何结合？KSU大学最新《基于图神经网络的强化学习》综述，阐述RL+GNN算法与应用

专知会员服务

84+阅读 · 2022年6月29日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

专知会员服务

33+阅读 · 2021年4月1日

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

专知会员服务

71+阅读 · 2020年5月22日

深度学习搜索，Exploring Deep Learning for Search

深度学习搜索，Exploring Deep Learning for Search

专知会员服务

61+阅读 · 2020年5月9日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【新书】深度学习搜索，Deep Learning for Search，327页pdf

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于微博社区的知识图谱构建与分析

国家自然科学基金

27+阅读 · 2014年12月31日

RLGT: A reinforcement learning framework for extremal graph theory

Arxiv

0+阅读 · 2月19日

On the Learning Dynamics of RLVR at the Edge of Competence

Arxiv

0+阅读 · 2月16日

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Arxiv

0+阅读 · 2月12日

Detecting RLVR Training Data via Structural Convergence of Reasoning

Arxiv

0+阅读 · 2月12日

SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents

Arxiv

0+阅读 · 2月8日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

DARL: Encouraging Diverse Answers for General Reasoning without Verifiers

Arxiv

0+阅读 · 1月21日

Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 1月19日

Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning

Arxiv

0+阅读 · 1月16日

GraphSearch: Agentic Search-Augmented Reasoning for Zero-Shot Graph Learning

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

【博士论文】安全的线上和线下强化学习，142页pdf

【博士论文】安全的线上和线下强化学习，142页pdf

专知会员服务

23+阅读 · 2024年6月12日

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

【干货书】Python强化学习算法:学习、理解和开发智能算法以应对人工智能挑战，356页pdf，附代码

专知会员服务

58+阅读 · 2022年12月10日

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

《综述：强化学习在航空中的应用》第一份调查航空领域RL方法的研究论文，2022最新论文

专知会员服务

49+阅读 · 2022年11月15日

GNN与RL如何结合？KSU大学最新《基于图神经网络的强化学习》综述，阐述RL+GNN算法与应用

GNN与RL如何结合？KSU大学最新《基于图神经网络的强化学习》综述，阐述RL+GNN算法与应用

专知会员服务

84+阅读 · 2022年6月29日

强化学习如何用于推荐？厦大最新《强化学习推荐系统》综述论文，25页pdf156篇文献论述五种典型RL推荐方法

专知会员服务

80+阅读 · 2021年9月23日

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

强化学习如何用于信息检索？请看ECIR2021《基于强化学习的信息检索》教程，附175页ppt与视频

专知会员服务

33+阅读 · 2021年4月1日

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

【清华大学】《人工智能之学术搜索》报告重磅发布：呈现知识和算法双引擎驱动的未来发展趋势 | 附报告PDF下载

专知会员服务

71+阅读 · 2020年5月22日

深度学习搜索，Exploring Deep Learning for Search

深度学习搜索，Exploring Deep Learning for Search

专知会员服务

61+阅读 · 2020年5月9日

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

【Svitlana博士论文以及答辩slides】基于知识的对话搜索（Knowledge-based Conversational Search），附145页pdf论文，55页ppt

专知会员服务

48+阅读 · 2019年11月25日

【NLP| 推荐文章】基于文本和知识库的语义搜索（Semantic search on text and knowledge bases）

专知会员服务

46+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

强化学习如何可解释？浙大最新《可解释强化学习》综述，37页pdf1阐述XRL概念、算法、挑战

专知

10+阅读 · 2022年11月17日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

【新书】深度学习搜索，Deep Learning for Search，327页pdf

【新书】深度学习搜索，Deep Learning for Search，327页pdf

专知

85+阅读 · 2020年1月19日

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

AMiner发布《人工智能之信息检索与推荐》报告，附72页PDF下载

专知

23+阅读 · 2019年9月6日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

南洋理工最新《命名实体识别深度学习方法》综述论文，25页pdf

专知

46+阅读 · 2018年12月28日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关论文

RLGT: A reinforcement learning framework for extremal graph theory

Arxiv

0+阅读 · 2月19日

On the Learning Dynamics of RLVR at the Edge of Competence

Arxiv

0+阅读 · 2月16日

Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Arxiv

0+阅读 · 2月12日

Detecting RLVR Training Data via Structural Convergence of Reasoning

Arxiv

0+阅读 · 2月12日

SRR-Judge: Step-Level Rating and Refinement for Enhancing Search-Integrated Reasoning in Search Agents

Arxiv

0+阅读 · 2月8日

Beyond Variance: Prompt-Efficient RLVR via Rare-Event Amplification and Bidirectional Pairing

Arxiv

0+阅读 · 2月3日

DARL: Encouraging Diverse Answers for General Reasoning without Verifiers

Arxiv

0+阅读 · 1月21日

Graph Reasoning Paradigm: Structured and Symbolic Reasoning with Topology-Aware Reinforcement Learning for Large Language Models

Arxiv

0+阅读 · 1月19日

Efficient Reinforcement Learning with Semantic and Token Entropy for LLM Reasoning

Arxiv

0+阅读 · 1月16日

GraphSearch: Agentic Search-Augmented Reasoning for Zero-Shot Graph Learning

Arxiv

0+阅读 · 1月13日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

基于微博社区的知识图谱构建与分析

国家自然科学基金

27+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员