Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval - 专知论文

会员服务 ·

0

交互 · 赌博机/老虎机 · 剪枝 · 样本 · 词元 ·

Col-Bandit: Zero-Shot Query-Time Pruning for Late-Interaction Retrieval

翻译：Col-Bandit：面向延迟交互检索的零样本查询时剪枝

Roi Pony,Adi Raz,Oshri Naparstek,Idan Friedman,Udi Barzelay

Multi-vector late-interaction retrievers such as ColBERT achieve state-of-the-art retrieval quality, but their query-time cost is dominated by exhaustively computing token-level MaxSim interactions for every candidate document. While approximating late interaction with single-vector representations reduces cost, it often incurs substantial accuracy loss. We introduce Col-Bandit, a query-time pruning algorithm that reduces this computational burden by casting reranking as a finite-population Top-$K$ identification problem. Col-Bandit maintains uncertainty-aware bounds over partially observed document scores and adaptively reveals only the (document, query token) MaxSim entries needed to determine the top results under statistical decision bounds with a tunable relaxation. Unlike coarse-grained approaches that prune entire documents or tokens offline, Col-Bandit sparsifies the interaction matrix on the fly. It operates as a zero-shot, drop-in layer over standard multi-vector systems, requiring no index modifications, offline preprocessing, or model retraining. Experiments on textual (BEIR) and multimodal (REAL-MM-RAG) benchmarks show that Col-Bandit preserves ranking fidelity while reducing MaxSim FLOPs by up to 5$\times$, indicating that dense late-interaction scoring contains substantial redundancy that can be identified and pruned efficiently at query time.

翻译：多向量延迟交互检索器（如ColBERT）能够实现最先进的检索质量，但其查询时成本主要源于为每个候选文档详尽计算词元级MaxSim交互。虽然使用单向量表示来近似延迟交互可以降低成本，但这通常会带来显著的精度损失。我们提出了Col-Bandit，一种查询时剪枝算法，通过将重排序建模为一个有限总体Top-$K$识别问题来减轻这一计算负担。Col-Bandit基于部分观测到的文档分数维护不确定性感知的边界，并在可调松弛度的统计决策边界下，自适应地仅揭示确定顶部结果所需的（文档，查询词元）MaxSim条目。与离线剪枝整个文档或词元的粗粒度方法不同，Col-Bandit在运行时对交互矩阵进行稀疏化。它作为一个零样本、即插即用的层运行在标准多向量系统之上，无需修改索引、离线预处理或模型重新训练。在文本（BEIR）和多模态（REAL-MM-RAG）基准测试上的实验表明，Col-Bandit在保持排序保真度的同时，将MaxSim的浮点运算次数减少了高达5$\times$，这表明密集的延迟交互评分包含大量冗余，可以在查询时被高效识别并剪枝。

0

相关内容

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

专知会员服务

19+阅读 · 2024年7月24日

《深度神经网络剪枝》最新2023综述

《深度神经网络剪枝》最新2023综述

专知会员服务

35+阅读 · 2023年8月17日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

【AAAI2021】阅读、回顾、选择：短文本实体链接的机器阅读理解框架

专知会员服务

34+阅读 · 2021年1月11日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

专知

15+阅读 · 2020年4月28日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

植物分子设计中高维数据的低维稀疏逼近方法

国家自然科学基金

0+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

连续变量量子误差修正的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Arxiv

0+阅读 · 3月17日

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Arxiv

0+阅读 · 3月11日

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Arxiv

0+阅读 · 3月10日

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Arxiv

0+阅读 · 2月26日

GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation

Arxiv

0+阅读 · 2月16日

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Arxiv

0+阅读 · 2月8日

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Arxiv

0+阅读 · 2月4日

POP: Prefill-Only Pruning for Efficient Large Model Inference

Arxiv

0+阅读 · 2月3日

SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale

Arxiv

0+阅读 · 2月2日

IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs

Arxiv

0+阅读 · 2月2日

VIP会员

文章信息

相关主题

赌博机/老虎机

最新内容

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

0+阅读 · 今天13:13

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

0+阅读 · 今天13:08

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

3+阅读 · 今天7:11

人工智能赋能无人机：俄乌战争（万字长文）

人工智能赋能无人机：俄乌战争（万字长文）

专知会员服务

5+阅读 · 今天6:56

国外海军作战管理系统与作战训练系统

国外海军作战管理系统与作战训练系统

专知会员服务

2+阅读 · 今天4:16

美军条令《海军陆战队规划流程（2026版）》

美军条令《海军陆战队规划流程（2026版）》

专知会员服务

10+阅读 · 今天3:36

《压缩式分布式交互仿真标准》120页

《压缩式分布式交互仿真标准》120页

专知会员服务

4+阅读 · 今天3:21

《电子战数据交换模型研究报告》

《电子战数据交换模型研究报告》

专知会员服务

6+阅读 · 今天3:13

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

美军运用水下无人机与机器人系统竞速清除霍尔木兹海峡水雷

专知会员服务

4+阅读 · 今天2:55

《基于Transformer的异常舰船导航识别与跟踪》80页

《基于Transformer的异常舰船导航识别与跟踪》80页

专知会员服务

8+阅读 · 今天2:45

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

《美国太空系统司令部实验室原型作战管理系统的数据与决策可追溯性》

专知会员服务

6+阅读 · 今天2:41

《低数据领域军事目标检测模型研究》

《低数据领域军事目标检测模型研究》

专知会员服务

6+阅读 · 今天2:37

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

《为韧性而设计：在战略不确定时代提升军事空军基地的生存能力》

专知会员服务

6+阅读 · 今天2:32

【CMU博士论文】物理世界的视觉感知与深度理解

【CMU博士论文】物理世界的视觉感知与深度理解

专知会员服务

10+阅读 · 4月22日

多智能体系统：从经典范式到大基础模型驱动的未来

多智能体系统：从经典范式到大基础模型驱动的未来

专知会员服务

17+阅读 · 4月22日

相关VIP内容

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

专知会员服务

19+阅读 · 2024年7月24日

《深度神经网络剪枝》最新2023综述

《深度神经网络剪枝》最新2023综述

专知会员服务

35+阅读 · 2023年8月17日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

【AAAI2021】阅读、回顾、选择：短文本实体链接的机器阅读理解框架

专知会员服务

34+阅读 · 2021年1月11日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

【论文推荐】基于BERT修剪的问答模型（Pruning a BERT-based Question Answering Model）

专知会员服务

30+阅读 · 2019年11月22日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型智能体长期记忆安全性综述：迈向记忆主权

人工智能赋能无人机：俄乌战争（万字长文）

【斯坦福博士论文】语言模型的机械可解释性与控制

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

相关资讯

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

【SIGIR2020-斯坦福大学】一种新的BERT类信息检索模型-又好又快的ColBERT

专知

15+阅读 · 2020年4月28日

异常检测怎么做，试试孤立随机森林算法（附代码）

异常检测怎么做，试试孤立随机森林算法（附代码）

机器之心

16+阅读 · 2020年3月15日

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

赛尔原创 | EMNLP 2019 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

哈工大SCIR

10+阅读 · 2019年11月18日

ACL 2019 | 多语言BERT的语言表征探索

ACL 2019 | 多语言BERT的语言表征探索

AI科技评论

21+阅读 · 2019年9月6日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

使用 Canal 实现数据异构

使用 Canal 实现数据异构

性能与架构

20+阅读 · 2019年3月4日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

时序异常检测算法概览

时序异常检测算法概览

论智

29+阅读 · 2018年8月30日

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

Facebook AI发布新版本FairSeq序列到序列(Seq2Seq)学习工具，可生成故事与快速推断

专知

23+阅读 · 2018年6月17日

相关论文

OPERA: Online Data Pruning for Efficient Retrieval Model Adaptation

Arxiv

0+阅读 · 3月17日

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Arxiv

0+阅读 · 3月11日

A Voronoi Cell Formulation for Principled Token Pruning in Late-Interaction Retrieval Models

Arxiv

0+阅读 · 3月10日

AgentDropoutV2: Optimizing Information Flow in Multi-Agent Systems via Test-Time Rectify-or-Reject Pruning

Arxiv

0+阅读 · 2月26日

GradMAP: Faster Layer Pruning with Gradient Metric and Projection Compensation

Arxiv

0+阅读 · 2月16日

Pruning as a Cooperative Game: Surrogate-Assisted Layer Contribution Estimation for Large Language Models

Arxiv

0+阅读 · 2月8日

SWE-Pruner: Self-Adaptive Context Pruning for Coding Agents

Arxiv

0+阅读 · 2月4日

POP: Prefill-Only Pruning for Efficient Large Model Inference

Arxiv

0+阅读 · 2月3日

SparseSwaps: Tractable LLM Pruning Mask Refinement at Scale

Arxiv

0+阅读 · 2月2日

IntraSlice: Towards High-Performance Structural Pruning with Block-Intra PCA for LLMs

Arxiv

0+阅读 · 2月2日

相关基金

基于马尔科夫信道模型的无线网络通信系统时延性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

云计算平台中大规模交互式服务长尾延迟消减关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

最小化加权完工时间和的在线排序研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多样化查询的多标记主动学习研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据中心延迟敏感型应用尾端响应时延服务质量保障方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向交互式问答的省略恢复技术研究

国家自然科学基金

5+阅读 · 2015年12月31日

植物分子设计中高维数据的低维稀疏逼近方法

国家自然科学基金

0+阅读 · 2015年12月31日

约束最小生成树及其在容迟容断网络中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

连续变量量子误差修正的实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员