基于领域内范例自动构建与多LLM扩展的LLM精化查询扩展方法 (Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion) - 专知论文

会员服务 ·

0

查询扩展 · 范例 · 精化 · 构建 · 大语言模型 ·

Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion

翻译：基于领域内范例自动构建与多LLM扩展的LLM精化查询扩展方法

Minghan Li,Ercong Nie,Siqi Zhao,Tongna Chen,Huiping Huang,Guodong Zhou

Query expansion with large language models is promising but often relies on hand-crafted prompts, manually chosen exemplars, or a single LLM, making it non-scalable and sensitive to domain shift. We present an automated, domain-adaptive QE framework that builds in-domain exemplar pools by harvesting pseudo-relevant passages using a BM25-MonoT5 pipeline. A training-free cluster-based strategy selects diverse demonstrations, yielding strong and stable in-context QE without supervision. To further exploit model complementarity, we introduce a two-LLM ensemble in which two heterogeneous LLMs independently generate expansions and a refinement LLM consolidates them into one coherent expansion. Across TREC DL20, DBPedia, and SciFact, the refined ensemble delivers consistent and statistically significant gains over BM25, Rocchio, zero-shot, and fixed few-shot baselines. The framework offers a reproducible testbed for exemplar selection and multi-LLM generation, and a practical, label-free solution for real-world QE.

翻译：基于大型语言模型的查询扩展方法前景广阔，但通常依赖于手工制作的提示、人工选择的范例或单一LLM，导致其难以扩展且对领域迁移敏感。我们提出了一种自动化、领域自适应的查询扩展框架，该框架通过使用BM25-MonoT5流水线收集伪相关段落来构建领域内范例池。一种无需训练的基于聚类的策略选择多样化的演示，从而在无监督情况下产生强大且稳定的上下文查询扩展。为了进一步利用模型的互补性，我们引入了一个双LLM集成方法，其中两个异构LLM独立生成扩展，再由一个精化LLM将它们整合成一个连贯的扩展。在TREC DL20、DBPedia和SciFact数据集上的实验表明，经过精化的集成方法相较于BM25、Rocchio、零样本以及固定少样本基线方法，均取得了持续且统计显著的性能提升。该框架为范例选择和多LLM生成提供了一个可复现的测试平台，并为现实世界的查询扩展提供了一个实用的、无需标注的解决方案。

0

相关内容

查询扩展

利用多个大型语言模型：关于LLM集成的调研

利用多个大型语言模型：关于LLM集成的调研

专知会员服务

35+阅读 · 2025年2月27日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

219+阅读 · 2023年6月8日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向多自治域环境的信息中心网络缓存策略和机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

Retrieval-Feedback-Driven Distillation and Preference Alignment for Efficient LLM-based Query Expansion

Arxiv

0+阅读 · 3月14日

Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion

Arxiv

0+阅读 · 3月13日

FGTR: Fine-Grained Multi-Table Retrieval via Hierarchical LLM Reasoning

Arxiv

0+阅读 · 3月13日

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Arxiv

0+阅读 · 3月9日

Beyond Single-Modal Analytics: A Framework for Integrating Heterogeneous LLM-Based Query Systems for Multi-Modal Data

Arxiv

0+阅读 · 3月2日

Agentic Adversarial QA for Improving Domain-Specific LLMs

Arxiv

0+阅读 · 2月20日

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月19日

Token-Level LLM Collaboration via FusionRoute

Arxiv

0+阅读 · 2月9日

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition

Arxiv

0+阅读 · 2月4日

Beyond the Prompt: Assessing Domain Knowledge Strategies for High-Dimensional LLM Optimization in Software Engineering

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

大语言模型

最新内容

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

专知会员服务

4+阅读 · 今天7:12

无人机与反无人机系统（书籍）

无人机与反无人机系统（书籍）

专知会员服务

4+阅读 · 今天6:45

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

专知会员服务

4+阅读 · 今天6:12

乌克兰2026年军用无人机：现代战争如何被改变

乌克兰2026年军用无人机：现代战争如何被改变

专知会员服务

2+阅读 · 今天5:53

美陆军2026条令：安全与机动支援

美陆军2026条令：安全与机动支援

专知会员服务

1+阅读 · 今天5:49

【牛津博士论文】以语言为接口的医学影像表示学习

【牛津博士论文】以语言为接口的医学影像表示学习

专知会员服务

7+阅读 · 4月13日

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

基于大语言模型的医疗推理研究：综述与 MR-Bench 基准测试

专知会员服务

6+阅读 · 4月13日

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

从原型到实战：扩展美陆军下一代指挥控制能力（试验进展）

专知会员服务

12+阅读 · 4月13日

技术、多域威慑与海上战争（报告）

技术、多域威慑与海上战争（报告）

专知会员服务

7+阅读 · 4月13日

随机网络效用最大化在战略排队系统中的博弈论方法

随机网络效用最大化在战略排队系统中的博弈论方法

专知会员服务

4+阅读 · 4月13日

“在云端防御”：提升北约数据韧性（报告）

“在云端防御”：提升北约数据韧性（报告）

专知会员服务

4+阅读 · 4月13日

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

从炒作到现实：人工智能在军事应用中的实战经验与建议（综述）

专知会员服务

9+阅读 · 4月13日

2026年伊朗战争对美国通胀的影响：情景分析（报告）

2026年伊朗战争对美国通胀的影响：情景分析（报告）

专知会员服务

2+阅读 · 4月13日

人工智能及其在海军行动中的整合（综述）

人工智能及其在海军行动中的整合（综述）

专知会员服务

6+阅读 · 4月13日

美以伊冲突：无人机主导的第三次海湾战争反防空作战

美以伊冲突：无人机主导的第三次海湾战争反防空作战

专知会员服务

4+阅读 · 4月13日

相关VIP内容

利用多个大型语言模型：关于LLM集成的调研

利用多个大型语言模型：关于LLM集成的调研

专知会员服务

35+阅读 · 2025年2月27日

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

如何将领域知识注入大模型？最新《将领域特定知识注入大语言模型》综述

专知会员服务

79+阅读 · 2025年2月24日

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

带入您自己的知识：大型语言模型（LLM）知识扩展方法综述

专知会员服务

38+阅读 · 2025年2月21日

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

【新书】解码大型语言模型：理解、实现与优化LLM在自然语言处理应用中的全面指南

专知会员服务

49+阅读 · 2024年12月13日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

【NeurIPS2023】LLM 用于半自动数据科学：介绍 CAAFE，一种具有上下文感知的自动特征工程方法

专知会员服务

37+阅读 · 2023年10月3日

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

大模型如何领域适配？埃默里大学等首篇《大型语言模型领域专业化》综述，42页pdf详述大模型领域垂直化技术

专知会员服务

219+阅读 · 2023年6月8日

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

大模型如何重塑推荐？中科大等最新《面向推荐的大型语言模型》综述，全面阐述LLM4Rec进展

专知会员服务

93+阅读 · 2023年6月1日

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

大模型如何适用长尾或特定领域？微软等提出《参数知识引导的增强大型语言模型》，扩展LLM的垂直化长尾适配能力

专知会员服务

87+阅读 · 2023年5月10日

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

【论文推荐】自然语言处理与查询扩展综述，Natural Language Processing and Query Expansion

专知会员服务

44+阅读 · 2020年5月3日

热门VIP内容

开通专知VIP会员享更多权益服务

无人机与反无人机系统（书籍）

乌克兰2026年军用无人机：现代战争如何被改变

（中文万字长文）美智库：针对伊朗的防空作战分析（报告）

（中文万字长文）2025-2026年乌克兰无人机拦截技术演进：反无人机技术、项目、效果、西方援助

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

【ICML2021】因果匹配领域泛化

【ICML2021】因果匹配领域泛化

专知

12+阅读 · 2021年8月12日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

迁移学习之Domain Adaptation

迁移学习之Domain Adaptation

全球人工智能

18+阅读 · 2018年4月11日

极市分享|王晋东迁移学习中的领域自适应方法

极市分享|王晋东迁移学习中的领域自适应方法

极市平台

10+阅读 · 2017年12月11日

相关论文

Retrieval-Feedback-Driven Distillation and Preference Alignment for Efficient LLM-based Query Expansion

Arxiv

0+阅读 · 3月14日

Automatic In-Domain Exemplar Construction and LLM-Based Refinement of Multi-LLM Expansions for Query Expansion

Arxiv

0+阅读 · 3月13日

FGTR: Fine-Grained Multi-Table Retrieval via Hierarchical LLM Reasoning

Arxiv

0+阅读 · 3月13日

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

Arxiv

0+阅读 · 3月9日

Beyond Single-Modal Analytics: A Framework for Integrating Heterogeneous LLM-Based Query Systems for Multi-Modal Data

Arxiv

0+阅读 · 3月2日

Agentic Adversarial QA for Improving Domain-Specific LLMs

Arxiv

0+阅读 · 2月20日

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Enhancing Large Language Models (LLMs) for Telecom using Dynamic Knowledge Graphs and Explainable Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月19日

Token-Level LLM Collaboration via FusionRoute

Arxiv

0+阅读 · 2月9日

DynamicNER: A Dynamic, Multilingual, and Fine-Grained Dataset for LLM-based Named Entity Recognition

Arxiv

0+阅读 · 2月4日

Beyond the Prompt: Assessing Domain Knowledge Strategies for High-Dimensional LLM Optimization in Software Engineering

Arxiv

0+阅读 · 2月2日

相关基金

“自然语言-草图”耦合的地理场景查询方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

面向多自治域环境的信息中心网络缓存策略和机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于多域认知的空天信息网络智能拓扑构建机制基础研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

基于异构连通需求的M2M网络拓扑控制机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员