Late-interaction models like ColBERT offer a competitive performance across various retrieval tasks, but require storing a dense embedding for each document token, leading to a substantial index storage overhead. Past works address this by attempting to prune low-importance token embeddings based on statistical and empirical measures, but they often either lack formal grounding or are ineffective. To address these shortcomings, we introduce a framework grounded in hyperspace geometry and cast token pruning as a Voronoi cell estimation problem in the embedding space. By interpreting each token's influence as a measure of its Voronoi region, our approach enables principled pruning that retains retrieval quality while reducing index size. Through our experiments, we demonstrate that this approach serves not only as a competitive pruning strategy but also as a valuable tool for improving and interpreting token-level behavior within dense retrieval systems.


翻译:诸如ColBERT之类的延迟交互模型在各种检索任务中展现出卓越性能,但需要为每个文档令牌存储稠密嵌入,导致显著的索引存储开销。以往研究试图基于统计和实证度量来剪枝低重要性令牌嵌入,但这些方法往往缺乏形式化基础或效果不佳。为克服这些不足,我们引入了一个基于超空间几何的框架,并将令牌剪枝问题转化为嵌入空间中的Voronoi单元估计问题。通过将每个令牌的影响力解释为其Voronoi区域的度量,我们的方法实现了在保持检索质量的同时减小索引规模的原理性剪枝。实验表明,该方法不仅是一种具有竞争力的剪枝策略,还可作为改进和解释稠密检索系统中令牌级行为的有效工具。

0
下载
关闭预览

相关内容

【AAAI2024】公平感知的Transformer模型结构剪枝
专知会员服务
43+阅读 · 2023年12月27日
《深度神经网络剪枝》最新2023综述
专知会员服务
35+阅读 · 2023年8月17日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
最新内容
技术、多域威慑与海上战争(报告)
专知会员服务
6+阅读 · 4月13日
“在云端防御”:提升北约数据韧性(报告)
专知会员服务
3+阅读 · 4月13日
人工智能及其在海军行动中的整合(综述)
专知会员服务
3+阅读 · 4月13日
美军MAVEN项目全面解析:算法战架构
专知会员服务
19+阅读 · 4月13日
从俄乌战场看“马赛克战”(万字长文)
专知会员服务
13+阅读 · 4月13日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员