Vision-Language Models (VLMs) face a critical memory bottleneck when processing long-form video content due to the linear growth of the Key-Value (KV) cache with sequence length. Existing solutions predominantly employ reactive eviction strategies that compute full attention matrices before discarding tokens, resulting in substantial computational waste. We propose Sali-Cache, a novel a priori optimization framework that implements dual-signal adaptive caching through proactive memory management. By integrating a temporal filter based on optical flow analysis for detecting inter-frame redundancy and a spatial filter leveraging saliency detection for identifying visually significant regions, Sali-Cache intelligently manages memory allocation before entering computationally expensive attention operations. Experimental evaluation on the LLaVA 1.6 architecture demonstrates that our method achieves a 2.20x compression ratio in effective memory usage while maintaining 100% accuracy across BLEU, ROUGE-L, and Exact Match metrics. Furthermore, under identical memory budget constraints, Sali-Cache preserves context-rich features over extended temporal durations without degrading model performance, enabling efficient processing of long-form video content on consumer-grade hardware.


翻译:视觉语言模型在处理长视频内容时面临严重的内存瓶颈,其键值缓存随序列长度呈线性增长。现有解决方案主要采用被动淘汰策略,即在计算完整注意力矩阵后丢弃冗余标记,导致大量计算资源浪费。本文提出Sali-Cache——一种新型先验优化框架,通过主动内存管理实现双信号自适应缓存。该框架集成基于光流分析的时间滤波器(用于检测帧间冗余)与利用显著性检测的空间滤波器(用于识别视觉关键区域),在进入计算密集的注意力操作前智能管理内存分配。基于LLaVA 1.6架构的实验评估表明,该方法在保持BLEU、ROUGE-L和精确匹配指标100%准确率的同时,实现了有效内存使用2.20倍的压缩比。此外,在相同内存预算约束下,Sali-Cache能在延长的时间跨度内保持上下文丰富特征且不降低模型性能,使得消费级硬件能够高效处理长视频内容。

0
下载
关闭预览

相关内容

【CVPR2025】重新思考长时视频理解中的时序检索
专知会员服务
13+阅读 · 2025年4月6日
【CVPR2025】BIMBA:面向长范围视频问答的选择性扫描压缩
【CVPR2024】Koala: 关键帧条件化长视频语言模型
专知会员服务
13+阅读 · 2024年4月21日
【CVPR2023】BiFormer:基于双层路由注意力的视觉Transformer
专知会员服务
35+阅读 · 2023年3月20日
STRCF for Visual Object Tracking
统计学习与视觉计算组
15+阅读 · 2018年5月29日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
国外反无人机系统与技术动态
专知会员服务
2+阅读 · 今天12:48
大规模作战行动中的战术作战评估(研究论文)
专知会员服务
3+阅读 · 今天12:21
未来的海战无人自主系统
专知会员服务
2+阅读 · 今天12:05
美军多域作战现状分析:战略、概念还是幻想?
专知会员服务
3+阅读 · 今天11:52
无人机与反无人机系统(书籍)
专知会员服务
14+阅读 · 今天6:45
美陆军2026条令:安全与机动支援
专知会员服务
5+阅读 · 今天5:49
技术、多域威慑与海上战争(报告)
专知会员服务
8+阅读 · 4月13日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员