Multi-vector embedding models have emerged as a powerful paradigm for document retrieval, preserving fine-grained visual and textual details through token-level representations. However, this expressiveness comes at a staggering cost: storing embeddings for every token inflates index sizes by over $1000\times$ compared to single-vector approaches, severely limiting scalability. We introduce \textbf{ReinPool}, a reinforcement learning framework that learns to dynamically filter and pool multi-vector embeddings into compact, retrieval-optimized representations. By training with an inverse retrieval objective and NDCG-based rewards, ReinPool identifies and retains only the most discriminative vectors without requiring manual importance annotations. On the Vidore V2 benchmark across three vision-language embedding models, ReinPool compresses multi-vector representations by $746$--$1249\times$ into single vectors while recovering 76--81\% of full multi-vector retrieval performance. Compared to static mean pooling baselines, ReinPool achieves 22--33\% absolute NDCG@3 improvement, demonstrating that learned selection significantly outperforms heuristic aggregation.


翻译:多向量嵌入模型已成为文档检索的强大范式,通过令牌级表征保留细粒度的视觉与文本细节。然而,这种表达能力的代价是惊人的:相比单向量方法,存储每个令牌的嵌入会使索引规模膨胀超过1000倍,严重限制了可扩展性。本文提出\textbf{ReinPool}——一种基于强化学习的框架,通过学习动态筛选与池化多向量嵌入,将其压缩为紧凑且检索优化的表征。通过结合逆向检索目标与基于NDCG的奖励机制进行训练,ReinPool能够在不依赖人工重要性标注的情况下,识别并仅保留最具区分度的向量。在Vidore V2基准测试中,针对三种视觉-语言嵌入模型,ReinPool将多向量表征压缩746至1249倍为单向量,同时恢复了完整多向量检索性能的76-81%。相较于静态均值池化基线,ReinPool在NDCG@3指标上实现了22-33%的绝对提升,证明学习型选择策略显著优于启发式聚合方法。

0
下载
关闭预览

相关内容

多模态检索增强生成综述
专知会员服务
40+阅读 · 2025年4月15日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
临床自然语言处理中的嵌入综述,SECNLP: A survey of embeddings
深度学习中Attention Mechanism详细介绍:原理、分类及应用
深度学习与NLP
10+阅读 · 2019年2月18日
【深度强化学习】深度强化学习揭秘
产业智能官
21+阅读 · 2017年11月13日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月29日
VIP会员
最新内容
乌克兰前线的五项创新
专知会员服务
1+阅读 · 今天6:14
 军事通信系统与设备的技术演进综述
专知会员服务
1+阅读 · 今天5:59
《北约标准:医疗评估手册》174页
专知会员服务
2+阅读 · 今天5:51
《提升生成模型的安全性与保障》博士论文
专知会员服务
0+阅读 · 今天5:47
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
10+阅读 · 4月19日
澳大利亚发布《国防战略(2026年)》
专知会员服务
4+阅读 · 4月19日
全球高超音速武器最新发展趋势
专知会员服务
4+阅读 · 4月19日
相关基金
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
14+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员