Recent advances in large language models (LLMs) have led to a surge of interest in query augmentation for information retrieval (IR). Two main approaches have emerged. The first prompts LLMs to generate answers or pseudo-documents that serve as new queries, relying purely on the model's parametric knowledge or contextual information. The second applies reinforcement learning (RL) to fine-tune LLMs for query rewriting, directly optimizing retrieval metrics. While having respective advantages and limitations, the two approaches have not been compared under consistent experimental conditions. In this work, we present the first systematic comparison of prompting-based and RL-based query augmentation across diverse benchmarks, including evidence-seeking, ad hoc, and tool retrieval. Our key finding is that simple, training-free query augmentation often performs on par with, or even surpasses, more expensive RL-based counterparts, especially when using powerful LLMs. Motivated by this discovery, we introduce a novel hybrid method, On-policy Pseudo-document Query Expansion (OPQE), which, instead of rewriting a query, the LLM policy learns to generate a pseudo-document that maximizes retrieval performance, thus merging the flexibility and generative structure of prompting with the targeted optimization of RL. We show OPQE outperforms both standalone prompting and RL-based rewriting, demonstrating that a synergistic approach yields the best results. Our implementation is made available to facilitate reproducibility.


翻译:大型语言模型(LLM)的最新进展引发了信息检索(IR)领域对查询增强的广泛关注。目前主要形成了两种方法。第一种方法提示LLM生成答案或伪文档作为新查询,这完全依赖于模型的参数化知识或上下文信息。第二种方法应用强化学习(RL)对LLM进行微调以实现查询重写,直接优化检索指标。尽管这两种方法各有优势和局限,但尚未在一致的实验条件下进行过比较。在本工作中,我们首次在多种基准测试(包括证据寻求、特定主题检索和工具检索)中,对基于提示的方法和基于RL的查询增强进行了系统比较。我们的关键发现是,简单、无需训练的查询增强方法通常与更昂贵的基于RL的方法表现相当,甚至更优,尤其是在使用强大的LLM时。受此发现启发,我们提出了一种新颖的混合方法——在线策略伪文档查询扩展(OPQE)。该方法不是重写查询,而是让LLM策略学习生成一个能最大化检索性能的伪文档,从而将提示的灵活性和生成结构与RL的有针对性优化相结合。我们证明OPQE优于独立的提示方法和基于RL的重写方法,这表明协同方法能产生最佳结果。我们公开了实现代码以促进可复现性。

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
谷歌推出新型数据增强算法:AutoAugment
论智
20+阅读 · 2018年6月6日
放弃 RNN/LSTM 吧,因为真的不好用!望周知~
人工智能头条
19+阅读 · 2018年4月24日
【强化学习】强化学习/增强学习/再励学习介绍
产业智能官
10+阅读 · 2018年2月23日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月19日
VIP会员
最新内容
最新“指挥控制”领域出版物合集(简介)
专知会员服务
1+阅读 · 今天15:19
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
3+阅读 · 今天15:13
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 今天14:45
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
相关VIP内容
大语言模型中的检索与结构化增强生成综述
专知会员服务
33+阅读 · 2025年9月17日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
强化学习增强的大型语言模型:综述
专知会员服务
52+阅读 · 2024年12月17日
微软最新《检索增强生成(RAG)》综述
专知会员服务
57+阅读 · 2024年9月24日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员