On the Challenges and Opportunities of Learned Sparse Retrieval for Code - 专知论文

会员服务 ·

0

On the Challenges and Opportunities of Learned Sparse Retrieval for Code

翻译：关于代码学习的稀疏检索的挑战与机遇

Simon Lupart,Maxime Louis,Thibault Formal,Hervé Déjean,Stéphane Clinchant

from arxiv, 15 pages, 5 figures, 12 tables

Retrieval over large codebases is a key component of modern LLM-based software engineering systems. Existing approaches predominantly rely on dense embedding models, while learned sparse retrieval (LSR) remains largely unexplored for code. However, applying sparse retrieval to code is challenging due to subword fragmentation, semantic gaps between natural-language queries and code, diversity of programming languages and sub-tasks, and the length of code documents, which can harm sparsity and latency. We introduce SPLADE-Code, the first large-scale family of learned sparse retrieval models specialized for code retrieval (600M-8B parameters). Despite a lightweight one-stage training pipeline, SPLADE-Code achieves state-of-the-art performance among retrievers under 1B parameters (75.4 on MTEB Code) and competitive results at larger scales (79.0 with 8B). We show that learned expansion tokens are critical to bridge lexical and semantic matching, and provide a latency analysis showing that LSR enables sub-millisecond retrieval on a 1M-passage collection with little effectiveness loss.

翻译：大规模代码库的检索是基于大型语言模型的现代软件工程系统的关键组成部分。现有方法主要依赖稠密嵌入模型，而学习的稀疏检索在代码领域仍鲜有探索。然而，将稀疏检索应用于代码面临诸多挑战：子词分割、自然语言查询与代码之间的语义鸿沟、编程语言及子任务的多样性，以及代码文档的长度（可能损害稀疏性和延迟）。我们提出了SPLADE-Code，这是首个专门为代码检索设计的大规模学习的稀疏检索模型系列（参数量从6亿到80亿）。尽管采用了轻量级的单阶段训练流程，SPLADE-Code在参数低于10亿的检索器中达到了最先进的性能（在MTEB代码基准上得分为75.4），并在更大规模上取得具有竞争力的结果（8B参数版本得分为79.0）。我们证实，学习的扩展标记对于弥合词汇匹配与语义匹配至关重要，并提供了延迟分析，表明LSR能够在100万条目的语料库上实现亚毫秒级检索，且效果损失极小。

0

相关内容

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

【CMU博士论文】在学习与推理中融入搜索

【CMU博士论文】在学习与推理中融入搜索

专知会员服务

17+阅读 · 2025年9月12日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

专知会员服务

31+阅读 · 2023年11月26日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

【AAAI2023】代码理解与生成的深度学习:挑战与机遇，30页ppt

【AAAI2023】代码理解与生成的深度学习:挑战与机遇，30页ppt

专知会员服务

48+阅读 · 2023年2月18日

智能数据库学习型索引研究综述

智能数据库学习型索引研究综述

专知会员服务

23+阅读 · 2023年1月14日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

专知会员服务

17+阅读 · 2019年11月10日

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

HIRE: A Hybrid Learned Index for Robust and Efficient Performance under Mixed Workloads

Arxiv

0+阅读 · 4月24日

From Tokens to Concepts: Leveraging SAE for SPLADE

Arxiv

0+阅读 · 4月23日

SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

Arxiv

0+阅读 · 4月21日

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Arxiv

0+阅读 · 4月20日

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Arxiv

0+阅读 · 4月19日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月8日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月7日

A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge

Arxiv

0+阅读 · 3月20日

Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector

Arxiv

0+阅读 · 3月19日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

1+阅读 · 今天14:45

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

1+阅读 · 今天14:43

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

3+阅读 · 今天14:31

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

3+阅读 · 今天14:20

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

2+阅读 · 今天14:11

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

3+阅读 · 今天14:07

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

3+阅读 · 今天14:03

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

2+阅读 · 今天13:59

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

5+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

8+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

7+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

8+阅读 · 6月22日

相关VIP内容

【博士论文】电商搜索中的排序学习

【博士论文】电商搜索中的排序学习

专知会员服务

13+阅读 · 2025年11月15日

【CMU博士论文】在学习与推理中融入搜索

【CMU博士论文】在学习与推理中融入搜索

专知会员服务

17+阅读 · 2025年9月12日

《深度学习代码智能》综述、基准和工具集

《深度学习代码智能》综述、基准和工具集

专知会员服务

56+阅读 · 2024年1月2日

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

历数5年89篇研究，这篇综述告诉我们深度学习中的代码数据增强怎么样了

专知会员服务

31+阅读 · 2023年11月26日

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

大模型如何重塑检索？人大最新《大型语言模型在信息检索中的应用》综述，26页pdf详述大模型+检索技术

专知会员服务

94+阅读 · 2023年8月16日

【AAAI2023】代码理解与生成的深度学习:挑战与机遇，30页ppt

【AAAI2023】代码理解与生成的深度学习:挑战与机遇，30页ppt

专知会员服务

48+阅读 · 2023年2月18日

智能数据库学习型索引研究综述

智能数据库学习型索引研究综述

专知会员服务

23+阅读 · 2023年1月14日

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

【MIT博士论文】机器学习中的稀疏性:理论与应用，122页pdf

专知会员服务

56+阅读 · 2022年11月21日

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

中科院计算所发布首篇「面向第一阶段检索的语义检索模型」综述论文，43页pdf242篇文献

专知会员服务

25+阅读 · 2021年10月3日

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

【课程推荐】深度学习中的新兴挑战（Emerging Challenges in Deep Learning）

专知会员服务

17+阅读 · 2019年11月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 世界动作模型：少做梦，多行动

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

美以伊冲突：无人机与人工智能的运用

相关资讯

Query 理解和语义召回在知乎搜索中的应用

Query 理解和语义召回在知乎搜索中的应用

DataFunTalk

25+阅读 · 2020年1月2日

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

最近必读的六篇【Meta-Learning（元学习）】相关论文和代码

专知

61+阅读 · 2019年11月3日

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

近期必读的八篇【Meta-Learning（元学习）】相关论文和代码

专知

134+阅读 · 2019年9月15日

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

【Github】ML-NLP：机器学习、NLP面试中常考到的知识点和代码实现

AINLP

10+阅读 · 2019年9月12日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

WSDM 2019教程—李航、何向南等，深度学习匹配在搜索和推荐中的应用

专知

26+阅读 · 2019年2月12日

一种关键字提取新方法

一种关键字提取新方法

1号机器人网

21+阅读 · 2018年11月15日

稀疏性的3个优势 -《稀疏统计学习及其应用》

稀疏性的3个优势 -《稀疏统计学习及其应用》

遇见数学

15+阅读 · 2018年10月24日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

TextInfoExp:自然语言处理相关实验（基于sougou数据集）

全球人工智能

12+阅读 · 2017年11月12日

相关论文

HIRE: A Hybrid Learned Index for Robust and Efficient Performance under Mixed Workloads

Arxiv

0+阅读 · 4月24日

From Tokens to Concepts: Leveraging SAE for SPLADE

Arxiv

0+阅读 · 4月23日

SpecAgent: A Speculative Retrieval and Forecasting Agent for Code Completion

Arxiv

0+阅读 · 4月21日

LeGo-Code: Can Modular Curriculum Learning Advance Complex Code Generation? Insights from Text-to-SQL

Arxiv

0+阅读 · 4月20日

Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Arxiv

0+阅读 · 4月19日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月8日

Generative Retrieval Overcomes Limitations of Dense Retrieval but Struggles with Identifier Ambiguity

Arxiv

0+阅读 · 4月7日

A Comprehensive Survey on Vector Database: Storage and Retrieval Technique, Challenge

Arxiv

0+阅读 · 3月20日

Milco: Learned Sparse Retrieval Across Languages via a Multilingual Connector

Arxiv

0+阅读 · 3月19日

Sparse Bayesian Deep Functional Learning with Structured Region Selection

Arxiv

0+阅读 · 2月24日

相关基金

云计算环境中面向内容的密文检索关键技术研究

国家自然科学基金

0+阅读 · 2017年12月31日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

大数据环境下稀有类数据挖掘研究

国家自然科学基金

3+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

几类典型稀疏优化问题的算法、理论及应用

国家自然科学基金

3+阅读 · 2014年12月31日

压缩感知和稀疏优化中的非凸优化算法设计

国家自然科学基金

2+阅读 · 2014年12月31日

稀疏优化问题的理论与方法及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员