Large-scale multi-tenant retrieval systems amass vast user query logs yet critically lack the curated relevance labels required for effective domain adaptation. This "dark data" problem is exacerbated by the operational cost of model updates: jointly fine-tuning query and document encoders requires re-indexing the entire corpus, which is prohibitive in multi-tenant environments with thousands of isolated indices. To address these dual challenges, we introduce \textbf{DevRev Search}, a passage retrieval benchmark for technical customer support constructed through a fully automatic pipeline. We employ a \textbf{fusion-based candidate generation} strategy, pooling results from diverse sparse and dense retrievers, and utilize an LLM-as-a-Judge to perform rigorous \textbf{consistency filtering} and relevance assignment. We further propose a practical \textbf{Index-Preserving Adaptation} strategy: by fine-tuning only the query encoder via Low-Rank Adaptation (LoRA), we achieve competitive performance improvements while keeping the document index frozen. Our experiments on DevRev Search and SciFact demonstrate that targeting specific transformer layers in the query encoder yields optimal quality-efficiency trade-offs, offering a scalable path for personalized enterprise search.


翻译:大规模多租户检索系统积累了海量用户查询日志,却严重缺乏有效领域适配所需的标注相关性标签。这一"暗数据"问题因模型更新的操作成本而加剧:联合微调查询和文档编码器需要重新索引整个语料库,这在拥有数千个独立索引的多租户环境中是难以实现的。为应对这双重挑战,我们引入了\textbf{DevRev Search}——一个通过全自动流水线构建的技术客户支持段落检索基准。我们采用\textbf{基于融合的候选生成}策略,汇集来自多样化稀疏与稠密检索器的结果,并利用LLM-as-a-Judge执行严格的\textbf{一致性过滤}和相关性标注。我们进一步提出实用的\textbf{索引保持适配}策略:通过仅使用低秩适配(LoRA)微调查询编码器,在保持文档索引冻结的同时实现了具有竞争力的性能提升。我们在DevRev Search和SciFact数据集上的实验表明,针对查询编码器中特定Transformer层进行优化可获得最佳的质量-效率权衡,为个性化企业搜索提供了可扩展的路径。

0
下载
关闭预览

相关内容

多模态检索增强生成综述
专知会员服务
40+阅读 · 2025年4月15日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
54+阅读 · 2020年2月28日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月5日
Arxiv
0+阅读 · 1月29日
VIP会员
相关VIP内容
多模态检索增强生成综述
专知会员服务
40+阅读 · 2025年4月15日
多模态检索增强生成的综合综述
专知会员服务
44+阅读 · 2025年2月17日
多模态复合编辑与检索综述
专知会员服务
25+阅读 · 2024年9月14日
《深度学习多标签学习》最新综述
专知会员服务
47+阅读 · 2024年1月31日
【Google】多模态Transformer视频检索,Multi-modal Transformer
专知会员服务
103+阅读 · 2020年7月22日
【伯克利-滴滴出行】深度学习多源领域自适应综述论文
专知会员服务
54+阅读 · 2020年2月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员