Generative retrieval (GR) differs from the traditional index-then-retrieve pipeline by storing relevance in model parameters and generating retrieval cues directly from the query, but it can be brittle out of domain and expensive to scale. We introduce QueStER (QUEry SpecificaTion for gEnerative Keyword-Based Retrieval), which bridges GR and query reformulation by learning to generate explicit keyword-based search specifications. Given a user query, a lightweight LLM produces a keyword query that is executed by a standard retriever (BM25), combining the generalization benefits of generative query rewriting with the efficiency and scalability of lexical indexing. We train the rewriting policy with reinforcement learning techniques. Across in- and out-of-domain evaluations, QueStER consistently improves over BM25 and is competitive with neural IR baselines, while maintaining strong efficiency.


翻译:生成式检索(GR)不同于传统的“索引-检索”流程,它将相关性信息存储在模型参数中,并直接从查询生成检索线索,但这种方法在领域外可能表现脆弱且扩展成本高昂。我们提出了QueStER(面向生成式关键词检索的查询规约),通过学习生成显式的基于关键词的搜索规约,桥接了生成式检索与查询重构。给定用户查询,一个轻量级大语言模型会生成关键词查询,随后由标准检索器(BM25)执行,从而将生成式查询重写的泛化优势与词汇索引的效率和可扩展性相结合。我们采用强化学习技术训练该重写策略。在领域内和领域外的评估中,QueStER始终优于BM25,并与神经信息检索基线方法性能相当,同时保持了高效的运行效率。

0
下载
关闭预览

相关内容

小红书搜索:生成式检索的探索与实践
专知会员服务
34+阅读 · 2024年10月5日
生成式信息检索综述
专知会员服务
35+阅读 · 2024年6月5日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
30+阅读 · 2024年4月25日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
54+阅读 · 2019年11月20日
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
小红书搜索:生成式检索的探索与实践
专知会员服务
34+阅读 · 2024年10月5日
生成式信息检索综述
专知会员服务
35+阅读 · 2024年6月5日
人大最新《从匹配到生成:生成式信息检索》综述
专知会员服务
30+阅读 · 2024年4月25日
《大型语言模型中基于检索的文本生成》综述
专知会员服务
59+阅读 · 2024年4月18日
【SIGIR2024】生成检索作即多向量密集检索
专知会员服务
23+阅读 · 2024年4月5日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
54+阅读 · 2019年11月20日
相关资讯
搜索query意图识别的演进
DataFunTalk
13+阅读 · 2020年11月15日
Query 理解和语义召回在知乎搜索中的应用
DataFunTalk
25+阅读 · 2020年1月2日
语音关键词检测方法综述【附PPT与视频资料】
人工智能前沿讲习班
10+阅读 · 2019年2月2日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员