Optimizing Retrieval Components for a Shared Backbone via Component-Wise Multi-Stage Training - 专知论文

会员服务 ·

0

系统 · 多阶 · 嵌入 · 工业系统 · 系统性能 ·

Optimizing Retrieval Components for a Shared Backbone via Component-Wise Multi-Stage Training

翻译：优化共享检索骨干网络的组件级多阶段训练方法

Yunhan Li,Mingjie Xie,Zihan Gong,Zeyang Shi,Gengshen Wu,Min Yang

from arxiv, 4 pages, 3 figures, 3 tables

Recent advances in embedding-based retrieval have enabled dense retrievers to serve as core infrastructure in many industrial systems, where a single retrieval backbone is often shared across multiple downstream applications. In such settings, retrieval quality directly constrains system performance and extensibility, while coupling model selection, deployment, and rollback decisions across applications. In this paper, we present empirical findings and a system-level solution for optimizing retrieval components deployed as a shared backbone in production legal retrieval systems. We adopt a multi-stage optimization framework for dense retrievers and rerankers, and show that different retrieval components exhibit stage-dependent trade-offs. These observations motivate a component-wise, mixed-stage configuration rather than relying on a single uniformly optimal checkpoint. The resulting backbone is validated through end-to-end evaluation and deployed as a shared retrieval service supporting multiple industrial applications.

翻译：近年来，基于嵌入的检索技术取得了显著进展，使得稠密检索器能够作为许多工业系统的核心基础设施，其中单个检索骨干网络通常被多个下游应用共享。在此类场景中，检索质量直接制约着系统性能与可扩展性，同时耦合了跨应用的模型选择、部署与回滚决策。本文针对生产级法律检索系统中作为共享骨干网络部署的检索组件，提出了实证研究结果与系统级优化方案。我们采用稠密检索器与重排序器的多阶段优化框架，并证明不同检索组件呈现出阶段依赖的权衡特性。这些观察结果促使我们采用组件级、混合阶段的配置策略，而非依赖单一的最优检查点。最终构建的骨干网络通过端到端评估验证，并已部署为支持多个工业应用的共享检索服务。

0

相关内容

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

16+阅读 · 2025年6月22日

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

专知会员服务

38+阅读 · 2023年1月8日

深度学习中的单阶段小目标检测方法综述

深度学习中的单阶段小目标检测方法综述

专知会员服务

47+阅读 · 2021年11月23日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

从锚点到关键点，最新的目标检测方法发展趋势

从锚点到关键点，最新的目标检测方法发展趋势

计算机视觉life

17+阅读 · 2019年8月20日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式社交网络结构、资源共享及迁移算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

异构网络中的分层并发传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Arxiv

0+阅读 · 3月16日

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

Arxiv

0+阅读 · 3月9日

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Arxiv

0+阅读 · 2月26日

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Arxiv

0+阅读 · 2月19日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

Training Dense Retrievers with Multiple Positive Passages

Arxiv

0+阅读 · 2月13日

Resource-Aware Deployment Optimization for Collaborative Intrusion Detection in Layered Networks

Arxiv

0+阅读 · 2月12日

Retrieval-GRPO: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search

Arxiv

0+阅读 · 2月7日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月7日

Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

0+阅读 · 今天15:55

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 今天15:53

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

11+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

《多层网络PageRank算法在国防关键基础设施分析中的应用》最新报告

专知会员服务

16+阅读 · 2025年6月22日

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

面向工业监控典型监督任务的深度迁移学习方法：现状、挑战与展望

专知会员服务

38+阅读 · 2023年1月8日

深度学习中的单阶段小目标检测方法综述

深度学习中的单阶段小目标检测方法综述

专知会员服务

47+阅读 · 2021年11月23日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

分布式深度学习训练网络综述

专知会员服务

48+阅读 · 2021年2月2日

复杂网络的双曲空间表征学习方法

专知会员服务

47+阅读 · 2020年11月13日

异质信息网络分析与应用综述，软件学报-北京邮电大学

异质信息网络分析与应用综述，软件学报-北京邮电大学

专知会员服务

64+阅读 · 2020年7月9日

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

【KDD2020】多层次图卷积网络的跨平台锚链预测，Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

专知会员服务

34+阅读 · 2020年6月7日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

【CCF优秀博士学位论文奖-2019】机器学习算法的分布式梯度优化研究，北京大学江佳伟

专知会员服务

57+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

GNN跨域综述：从消息传递到图基础模型

巡飞弹与反无人机系统——现代战场的两大支柱

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

相关资讯

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

推荐！《基于多智能体学习的任务分配动态邻域优化》2022最新41页综述论文，伦敦国王学院

专知

17+阅读 · 2022年11月15日

从锚点到关键点，最新的目标检测方法发展趋势

从锚点到关键点，最新的目标检测方法发展趋势

计算机视觉life

17+阅读 · 2019年8月20日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

强化学习落地！京东等发布综述《深度强化学习在搜索，推荐和在线广告中的应用》

专知

26+阅读 · 2019年2月19日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

分布式优化算法及其在多智能体系统与机器学习中的应用【附PPT与视频资料】

人工智能前沿讲习班

21+阅读 · 2018年12月21日

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

【论文推荐】最新八篇图像检索相关论文—三元组、深度特征图、判别式、卷积特征聚合、视觉-关系知识图谱、大规模图像检索

专知

33+阅读 · 2018年4月23日

深度学习时代的目标检测算法

深度学习时代的目标检测算法

炼数成金订阅号

40+阅读 · 2018年3月19日

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

【论文推荐】最新六篇用户建模精选论文推荐—深度多模态融合、跨平台、时序性RNN、ATRank、嵌入因子分解、异构信息网络

专知

10+阅读 · 2018年3月10日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Arxiv

0+阅读 · 3月16日

Optimizing Reinforcement Learning Training over Digital Twin Enabled Multi-fidelity Networks

Arxiv

0+阅读 · 3月9日

The Wisdom of Many Queries: Complexity-Diversity Principle for Dense Retriever Training

Arxiv

0+阅读 · 2月26日

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Mine and Refine: Optimizing Graded Relevance in E-commerce Search Retrieval

Arxiv

0+阅读 · 2月19日

Hierarchical Retrieval at Scale: Bridging Transparency and Efficiency

Arxiv

0+阅读 · 2月13日

Training Dense Retrievers with Multiple Positive Passages

Arxiv

0+阅读 · 2月13日

Resource-Aware Deployment Optimization for Collaborative Intrusion Detection in Layered Networks

Arxiv

0+阅读 · 2月12日

Retrieval-GRPO: A Multi-Objective Reinforcement Learning Framework for Dense Retrieval in Taobao Search

Arxiv

0+阅读 · 2月7日

Learning to Select: Query-Aware Adaptive Dimension Selection for Dense Retrieval

Arxiv

0+阅读 · 2月7日

Training a Utility-based Retriever Through Shared Context Attribution for Retrieval-Augmented Language Models

Arxiv

0+阅读 · 2月2日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

多重网络中的级联与传播过程研究

国家自然科学基金

0+阅读 · 2015年12月31日

分布式社交网络结构、资源共享及迁移算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

多路径通信网络关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于微型批量采样的分布式多智能个体网络协同优化算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

集中式协作频谱感知系统的多层次优化

国家自然科学基金

2+阅读 · 2015年12月31日

异构网络中的分层并发传输技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构化方法的复杂研发项目多领域集成分析与优化研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员