QueStER: Query Specification for Generative keyword-based Retrieval - 专知论文

会员服务 ·

0

关键词检索 · BM25 · 生成式检索 · 相关性 · 信息存储 ·

QueStER: Query Specification for Generative keyword-based Retrieval

翻译：QueStER：面向生成式关键词检索的查询规约

Arthur Satouf,Yuxuan Zong,Habiboulaye Amadou-Boubacar,Pablo Piantanida,Benjamin Piwowarski

Generative retrieval (GR) differs from the traditional index-then-retrieve pipeline by storing relevance in model parameters and generating retrieval cues directly from the query, but it can be brittle out of domain and expensive to scale. We introduce QueStER (QUEry SpecificaTion for gEnerative Keyword-Based Retrieval), which bridges GR and query reformulation by learning to generate explicit keyword-based search specifications. Given a user query, a lightweight LLM produces a keyword query that is executed by a standard retriever (BM25), combining the generalization benefits of generative query rewriting with the efficiency and scalability of lexical indexing. We train the rewriting policy with reinforcement learning techniques. Across in- and out-of-domain evaluations, QueStER consistently improves over BM25 and is competitive with neural IR baselines, while maintaining strong efficiency.

翻译：生成式检索（GR）不同于传统的“索引-检索”流程，它将相关性信息存储在模型参数中，并直接从查询生成检索线索，但这种方法在领域外可能表现脆弱且扩展成本高昂。我们提出了QueStER（面向生成式关键词检索的查询规约），通过学习生成显式的基于关键词的搜索规约，桥接了生成式检索与查询重构。给定用户查询，一个轻量级大语言模型会生成关键词查询，随后由标准检索器（BM25）执行，从而将生成式查询重写的泛化优势与词汇索引的效率和可扩展性相结合。我们采用强化学习技术训练该重写策略。在领域内和领域外的评估中，QueStER始终优于BM25，并与神经信息检索基线方法性能相当，同时保持了高效的运行效率。

0

相关内容

关键词检索

关键词检索

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

小红书搜索：生成式检索的探索与实践

小红书搜索：生成式检索的探索与实践

专知会员服务

34+阅读 · 2024年10月5日

生成式信息检索综述

生成式信息检索综述

专知会员服务

35+阅读 · 2024年6月5日

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

专知会员服务

35+阅读 · 2024年5月21日

人大最新《从匹配到生成：生成式信息检索》综述

人大最新《从匹配到生成：生成式信息检索》综述

专知会员服务

30+阅读 · 2024年4月25日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

【SIGIR2024】生成检索作即多向量密集检索

【SIGIR2024】生成检索作即多向量密集检索

专知会员服务

23+阅读 · 2024年4月5日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【综述】关键词生成，附10页pdf论文下载

【综述】关键词生成，附10页pdf论文下载

专知会员服务

54+阅读 · 2019年11月20日

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

Arxiv

0+阅读 · 2月12日

End-to-End Semantic ID Generation for Generative Advertisement Recommendation

Arxiv

0+阅读 · 2月12日

RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation

Arxiv

0+阅读 · 2月9日

Unifying Ranking and Generation in Query Auto-Completion via Retrieval-Augmented Generation and Multi-Objective Alignment

Arxiv

0+阅读 · 2月5日

Entailed Opinion Matters: Improving the Fact-Checking Performance of Language Models by Relying on their Entailment Ability

Arxiv

0+阅读 · 2月4日

Unifying Ranking and Generation in Query Auto-Completion via Retrieval-Augmented Generation and Multi-Objective Alignment

Arxiv

0+阅读 · 2月3日

TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations

Arxiv

0+阅读 · 1月31日

DualGR: Generative Retrieval with Long and Short-Term Interests Modeling

Arxiv

0+阅读 · 1月26日

DiffuGR: Generative Document Retrieval with Diffusion Language Models

Arxiv

0+阅读 · 1月25日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

关键词检索

生成式检索

最新内容

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

0+阅读 · 22分钟前

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

0+阅读 · 39分钟前

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

0+阅读 · 42分钟前

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

0+阅读 · 44分钟前

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

0+阅读 · 59分钟前

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

0+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

【ICML2025】QuRe：通过困难负样本采样实现查询相关的组合图像检索

专知会员服务

7+阅读 · 2025年7月20日

小红书搜索：生成式检索的探索与实践

小红书搜索：生成式检索的探索与实践

专知会员服务

34+阅读 · 2024年10月5日

生成式信息检索综述

生成式信息检索综述

专知会员服务

35+阅读 · 2024年6月5日

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

大模型如何做检索？WWW2024教程《生成式信息检索》附115页ppt

专知会员服务

35+阅读 · 2024年5月21日

人大最新《从匹配到生成：生成式信息检索》综述

人大最新《从匹配到生成：生成式信息检索》综述

专知会员服务

30+阅读 · 2024年4月25日

《大型语言模型中基于检索的文本生成》综述

《大型语言模型中基于检索的文本生成》综述

专知会员服务

60+阅读 · 2024年4月18日

【SIGIR2024】生成检索作即多向量密集检索

【SIGIR2024】生成检索作即多向量密集检索

专知会员服务

23+阅读 · 2024年4月5日

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

【Hugging Face】指导文本生成与约束波束搜索🤗Transformers，Guiding Text Generation with Constrained Beam Search in 🤗 Transformers

专知会员服务

22+阅读 · 2022年3月18日

【综述】关键词生成，附10页pdf论文下载

【综述】关键词生成，附10页pdf论文下载

专知会员服务

54+阅读 · 2019年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《短程弹道再入飞行器拦截时间中的一项异常现象》

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

从燃煤战舰到算法战争：水面指挥的永恒要求

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

相关资讯

搜索query意图识别的演进

搜索query意图识别的演进

DataFunTalk

13+阅读 · 2020年11月15日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

语音关键词检测方法综述【附PPT与视频资料】

语音关键词检测方法综述【附PPT与视频资料】

人工智能前沿讲习班

10+阅读 · 2019年2月2日

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

Github项目推荐 | Sentence Classification - 神经网络句子分类(陈述/疑问/感叹/祈使)

AI研习社

14+阅读 · 2019年1月16日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

神圣的NLP！一文理解词性标注、依存分析和命名实体识别任务

深度学习与NLP

25+阅读 · 2018年8月22日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

免费 | 从文本匹配到图文匹配:所见所想所找 - 基于生成模型的多模态检索

AI研习社

44+阅读 · 2018年3月23日

专栏 | 如何做好文本关键词提取？从三种算法说起

专栏 | 如何做好文本关键词提取？从三种算法说起

机器之心

14+阅读 · 2018年3月4日

技术干货 | 如何做好文本关键词提取？从三种算法说起

技术干货 | 如何做好文本关键词提取？从三种算法说起

数据猿

12+阅读 · 2018年2月12日

相关论文

AttentionRetriever: Attention Layers are Secretly Long Document Retrievers

Arxiv

0+阅读 · 2月12日

End-to-End Semantic ID Generation for Generative Advertisement Recommendation

Arxiv

0+阅读 · 2月12日

RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation

Arxiv

0+阅读 · 2月9日

Unifying Ranking and Generation in Query Auto-Completion via Retrieval-Augmented Generation and Multi-Objective Alignment

Arxiv

0+阅读 · 2月5日

Entailed Opinion Matters: Improving the Fact-Checking Performance of Language Models by Relying on their Entailment Ability

Arxiv

0+阅读 · 2月4日

Unifying Ranking and Generation in Query Auto-Completion via Retrieval-Augmented Generation and Multi-Objective Alignment

Arxiv

0+阅读 · 2月3日

TabRAG: Improving Tabular Document Question Answering for Retrieval Augmented Generation via Structured Representations

Arxiv

0+阅读 · 1月31日

DualGR: Generative Retrieval with Long and Short-Term Interests Modeling

Arxiv

0+阅读 · 1月26日

DiffuGR: Generative Document Retrieval with Diffusion Language Models

Arxiv

0+阅读 · 1月25日

Disco-RAG: Discourse-Aware Retrieval-Augmented Generation

Arxiv

0+阅读 · 1月15日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

面向知识库的实体链接技术研究

国家自然科学基金

13+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

笔迹图像中关键词语过滤技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员