Look in the Middle: Structural Anchor Pruning for Scalable Visual RAG Indexing - 专知论文

会员服务 ·

0

剪枝 · 结构 · 细粒度 · 粒度 · 文档检索 ·

Look in the Middle: Structural Anchor Pruning for Scalable Visual RAG Indexing

翻译：关注中间层：面向可扩展视觉RAG索引的结构锚点剪枝

Zhuchenyang Liu,Ziyu Hu,Yao Zhang,Yu Xiao

from arxiv, 18 pages, 6 figures, 11 tables

Recent Vision-Language Models (e.g., ColPali) enable fine-grained Visual Document Retrieval (VDR) but incur prohibitive index vector size overheads. Training-free pruning solutions (e.g., EOS-attention based methods) can reduce index vector size by approximately 60% without model adaptation, but often underperform random selection in high-compression scenarios (> 80%). Prior research (e.g., Light-ColPali) attributes this to the conclusion that visual token importance is inherently query-dependent, thereby questioning the feasibility of training-free pruning. In this work, we propose Structural Anchor Pruning (SAP), a training-free pruning method that identifies key visual patches from middle layers to achieve high performance compression. We also introduce Oracle Score Retention (OSR) protocol to evaluate how layer-wise information affects compression efficiency. Evaluations on the ViDoRe benchmark demonstrate that SAP reduces index vectors by over 90% while maintaining robust retrieval fidelity, providing a highly scalable solution for Visual RAG. Furthermore, our OSR-based analysis reveals that semantic structural anchor patches persist in the middle layers, unlike traditional pruning solutions that focus on the final layer where structural signals dissipate.

翻译：近期视觉语言模型（如ColPali）虽能实现细粒度视觉文档检索，却带来了难以承受的索引向量规模开销。免训练的剪枝方案（例如基于EOS注意力的方法）可在无需模型适配的情况下将索引向量规模缩减约60%，但在高压缩场景（>80%）下其表现常逊于随机选择。先前研究（如Light-ColPali）将此归因于视觉令牌重要性本质上具有查询依赖性，从而质疑了免训练剪枝的可行性。本文提出结构锚点剪枝，这是一种免训练的剪枝方法，通过从中间层识别关键视觉块来实现高性能压缩。我们还引入了Oracle分数保留协议，用以评估分层信息如何影响压缩效率。在ViDoRe基准上的评估表明，SAP能将索引向量缩减超过90%，同时保持稳健的检索保真度，为视觉RAG提供了高度可扩展的解决方案。此外，我们基于OSR的分析揭示，语义结构锚点块持续存在于中间层，这与传统剪枝方案聚焦于结构信号已消散的最终层形成鲜明对比。

0

相关内容

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

《深度神经网络剪枝》最新2023综述

《深度神经网络剪枝》最新2023综述

专知会员服务

35+阅读 · 2023年8月17日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

专知会员服务

12+阅读 · 2020年1月7日

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

过参数化、剪枝和网络结构搜索

过参数化、剪枝和网络结构搜索

极市平台

17+阅读 · 2019年11月24日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

Sink-Aware Pruning for Diffusion Language Models

Arxiv

0+阅读 · 2月19日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Arxiv

0+阅读 · 2月15日

Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search

Arxiv

0+阅读 · 2月13日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月9日

Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning

Arxiv

0+阅读 · 2月4日

Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

Arxiv

0+阅读 · 2月4日

High-Layer Attention Pruning with Rescaling

Arxiv

0+阅读 · 1月27日

ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning

Arxiv

0+阅读 · 1月25日

Attention Debiasing for Token Pruning in Vision Language Models

Arxiv

0+阅读 · 1月16日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

1+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

1+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

1+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

0+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

8+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

9+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

4+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

4+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

14+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

3+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

【NeurIPS2024】GDeR: 通过原型图剪枝保障效率、平衡性与鲁棒性

专知会员服务

15+阅读 · 2024年10月21日

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

【CVPR2024】通过可学习智能体指导和对齐共同训练和剪枝CNNs

专知会员服务

19+阅读 · 2024年3月29日

【AAAI2024】公平感知的Transformer模型结构剪枝

【AAAI2024】公平感知的Transformer模型结构剪枝

专知会员服务

43+阅读 · 2023年12月27日

《深度神经网络剪枝》最新2023综述

《深度神经网络剪枝》最新2023综述

专知会员服务

35+阅读 · 2023年8月17日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

【AAAI2022】基于对比学习的预训练语言模型剪枝压缩

专知会员服务

29+阅读 · 2022年1月24日

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

「深度学习稀疏性」首篇大综述论文，90页pdf阐述神经网络中有效的推理和训练的剪枝和生长

专知会员服务

62+阅读 · 2021年2月8日

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

【MIT-MLSys2020】神经网络剪枝的研究进展状态，Neural Network Pruning

专知会员服务

29+阅读 · 2020年3月10日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

【Google无监督大规模视觉表示迁移】Large Scale Learning of General Visual Representations for Transfer

专知会员服务

12+阅读 · 2020年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

注意力机制 | 图卷积多跳注意力机制 | Direct multi-hop Attention based GNN

AINLP

22+阅读 · 2020年11月29日

过参数化、剪枝和网络结构搜索

过参数化、剪枝和网络结构搜索

极市平台

17+阅读 · 2019年11月24日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

基于关系网络的视觉建模：有望替代卷积神经网络

基于关系网络的视觉建模：有望替代卷积神经网络

微软研究院AI头条

10+阅读 · 2019年7月12日

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

TensorFlow官方发布剪枝优化工具：参数减少80%，精度几乎不变

量子位

11+阅读 · 2019年5月15日

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

最新《深度神经网络自监督视觉特征学习综述》论文（附24页全文下载）

专知

36+阅读 · 2019年2月20日

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

每日论文 | 图形深度神经网络并行框架NGra；用人类注意力进行序列分类；针对多智能体协作的图卷积强化学习

论智

26+阅读 · 2018年10月30日

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

【泡泡图灵智库】密集相关的自监督视觉描述学习（RAL）

泡泡机器人SLAM

11+阅读 · 2018年10月6日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

相关论文

Sink-Aware Pruning for Diffusion Language Models

Arxiv

0+阅读 · 2月19日

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

Arxiv

0+阅读 · 2月19日

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Arxiv

0+阅读 · 2月15日

Visual RAG Toolkit: Scaling Multi-Vector Visual Retrieval with Training-Free Pooling and Multi-Stage Search

Arxiv

0+阅读 · 2月13日

Focus-Scan-Refine: From Human Visual Perception to Efficient Visual Token Pruning

Arxiv

0+阅读 · 2月9日

Greedy-Gnorm: A Gradient Matrix Norm-Based Alternative to Attention Entropy for Head Pruning

Arxiv

0+阅读 · 2月4日

Beyond Static Cropping: Layer-Adaptive Visual Localization and Decoding Enhancement

Arxiv

0+阅读 · 2月4日

High-Layer Attention Pruning with Rescaling

Arxiv

0+阅读 · 1月27日

ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning

Arxiv

0+阅读 · 1月25日

Attention Debiasing for Token Pruning in Vision Language Models

Arxiv

0+阅读 · 1月16日

相关基金

高性能低比特视觉搜索及芯片结构研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于改进型视觉注意模型的多模态极相似图像检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于跨媒体可视分析的三维对象关联检索方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

深度学习框架下基于情境线索的视觉注意研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于压缩感知的高精度实时视觉跟踪方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

三维场景中基于空间方向关系的混合索引结构研究

国家自然科学基金

0+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

稀疏性多维联合优化在线视觉跟踪方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员