Vision-language segmentation models such as SAM3 enable flexible, prompt-driven visual grounding, but inherit large, general-purpose text encoders originally designed for open-ended language understanding. In practice, segmentation prompts are short, structured, and semantically constrained, leading to substantial over-provisioning in text encoder capacity and persistent computational and memory overhead. In this paper, we perform a large-scale anatomical analysis of text prompting in vision-language segmentation, covering 404,796 real prompts across multiple benchmarks. Our analysis reveals severe redundancy: most context windows are underutilized, vocabulary usage is highly sparse, and text embeddings lie on low-dimensional manifold despite high-dimensional representations. Motivated by these findings, we propose SAM3-LiteText, a lightweight text encoding framework that replaces the original SAM3 text encoder with a compact MobileCLIP student that is optimized by knowledge distillation. Extensive experiments on image and video segmentation benchmarks show that SAM3-LiteText reduces text encoder parameters by up to 88%, substantially reducing static memory footprint, while maintaining segmentation performance comparable to the original model. Code: https://github.com/SimonZeng7108/efficientsam3/tree/sam3_litetext.


翻译:诸如SAM3之类的视觉语言分割模型能够实现灵活的、提示驱动的视觉定位,但其继承了原本为开放式语言理解设计的大型通用文本编码器。实际上,分割提示词通常简短、结构化且语义受限,这导致文本编码器能力存在大量过度配置,并带来持续的计算和内存开销。本文对视觉语言分割中的文本提示进行了大规模解剖学分析,涵盖了多个基准测试中的404,796个真实提示。我们的分析揭示了严重的冗余:大多数上下文窗口未得到充分利用,词汇使用高度稀疏,并且尽管采用高维表示,文本嵌入却位于低维流形上。基于这些发现,我们提出了SAM3-LiteText,一个轻量级文本编码框架,它用一个紧凑的MobileCLIP学生模型替代了原始的SAM3文本编码器,并通过知识蒸馏进行优化。在图像和视频分割基准测试上的大量实验表明,SAM3-LiteText将文本编码器参数减少了高达88%,显著降低了静态内存占用,同时保持了与原始模型相当的分割性能。代码:https://github.com/SimonZeng7108/efficientsam3/tree/sam3_litetext。

0
下载
关闭预览

相关内容

SAM2 用于图像和视频分割:全面综述
专知会员服务
17+阅读 · 2025年3月22日
Segment Anything模型的高效变体:综述
专知会员服务
27+阅读 · 2024年10月11日
《视频任意分割Segment Anything》系统性综述
专知会员服务
23+阅读 · 2024年8月19日
分割任何模型(SAM)综述: 视觉基础模型与提示工程的结合
专知会员服务
53+阅读 · 2023年6月16日
本周精选共读论文《计算机视觉图像分割》六篇
人工智能前沿讲习班
10+阅读 · 2019年4月1日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员