Neural retrievers are effective but brittle: underspecified or ambiguous queries can misdirect ranking even when relevant documents exist. Existing approaches address this brittleness only partially: LLMs rewrite queries without retriever feedback, and explainability methods identify misleading tokens but are used for post-hoc analysis. We close this loop and propose an attribution-guided query rewriting method that uses token-level explanations to guide query rewriting. For each query, we compute gradient-based token attributions from the retriever and then use these scores as soft guidance in a structured prompt to an LLM that clarifies weak or misleading query components while preserving intent. Evaluated on BEIR collections, the resulting rewrites consistently improve retrieval effectiveness over strong baselines, with larger gains for implicit or ambiguous information needs.


翻译:神经检索模型虽效果显著但存在脆弱性:当相关文档存在时,未充分明确或含歧义的查询仍可能导致排序偏差。现有方法仅部分解决了这一脆弱性问题:大语言模型(LLM)在不获取检索器反馈的情况下改写查询,而可解释性方法虽能识别误导性词元,却仅用于事后分析。本研究通过构建闭环系统,提出一种基于归因引导的查询改写方法,利用词元级解释指导查询改写过程。针对每个查询,我们首先从检索器中计算基于梯度的词元归因分数,随后将这些分数作为软性指导信息融入结构化提示中,驱动大语言模型在保持查询意图的前提下澄清其中表述模糊或具有误导性的成分。在BEIR基准数据集上的实验表明,该方法生成的改写查询能持续提升检索效果,相较于强基线模型具有显著优势,且对隐含或模糊信息需求的检索性能提升更为明显。

0
下载
关闭预览

相关内容

《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
医疗健康领域的短文本解析探索----文本纠错
深度学习自然语言处理
10+阅读 · 2020年8月5日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《利用 ChatGPT 实现高效事实核查》
专知会员服务
47+阅读 · 2023年10月25日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员