Open-vocabulary segmentation (OVS) extends the zero-shot recognition capabilities of vision-language models (VLMs) to pixel-level prediction, enabling segmentation of arbitrary categories specified by text prompts. Despite recent progress, OVS lags behind fully supervised approaches due to two challenges: the coarse image-level supervision used to train VLMs and the semantic ambiguity of natural language. We address these limitations by introducing a few-shot setting that augments textual prompts with a support set of pixel-annotated images. Building on this, we propose a retrieval-augmented test-time adapter that learns a lightweight, per-image classifier by fusing textual and visual support features. Unlike prior methods relying on late, hand-crafted fusion, our approach performs learned, per-query fusion, achieving stronger synergy between modalities. The method supports continually expanding support sets, and applies to fine-grained tasks such as personalized segmentation. Experiments show that we significantly narrow the gap between zero-shot and supervised segmentation while preserving open-vocabulary ability.


翻译:开放词汇分割(OVS)将视觉语言模型(VLM)的零样本识别能力扩展至像素级预测,使其能够分割由文本提示指定的任意类别。尽管近期取得进展,OVS仍落后于全监督方法,这主要源于两大挑战:用于训练VLM的粗粒度图像级监督,以及自然语言的语义模糊性。我们通过引入少样本设置来解决这些局限,该设置通过添加带有像素标注图像的支持集来增强文本提示。在此基础上,我们提出一种检索增强的测试时适配器,通过融合文本与视觉支持特征来学习轻量级的每图像分类器。与先前依赖后期手工融合的方法不同,我们的方法执行基于学习的每查询融合,实现了模态间更强的协同效应。该方法支持持续扩展的支持集,并适用于细粒度任务(如个性化分割)。实验表明,我们在保持开放词汇能力的同时,显著缩小了零样本分割与监督分割之间的性能差距。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
专知会员服务
47+阅读 · 2020年10月5日
专知会员服务
42+阅读 · 2020年2月20日
用Attention玩转CV,一文总览自注意力语义分割进展
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《对信息环境分析实现人工智能预测冲突》96页
专知会员服务
2+阅读 · 今天9:59
《面向海军应用的无人机网络安全仿真环境》
专知会员服务
2+阅读 · 今天9:41
无人机与僵局:俄乌战争难以突破
专知会员服务
3+阅读 · 今天9:02
《控制对手感知:电子战愿景与赋能技术》
专知会员服务
3+阅读 · 今天8:51
自主、人工智能与可消耗集群时代的海军情报
专知会员服务
8+阅读 · 4月6日
“史诗狂怒行动”中的海军动态
专知会员服务
10+阅读 · 4月5日
大语言模型同策略蒸馏研究综述
专知会员服务
10+阅读 · 4月5日
相关VIP内容
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
视觉-语言模型在物体检测与分割中的应用:综述与评估
专知会员服务
25+阅读 · 2025年4月28日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
专知会员服务
47+阅读 · 2020年10月5日
专知会员服务
42+阅读 · 2020年2月20日
相关资讯
用Attention玩转CV,一文总览自注意力语义分割进展
CVPR 2019 Oral 论文解读 | 无监督域适应语义分割
AI科技评论
49+阅读 · 2019年5月29日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
超像素、语义分割、实例分割、全景分割 傻傻分不清?
计算机视觉life
19+阅读 · 2018年11月27日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员