ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation - 专知论文

会员服务 ·

0

ARM · CLIP · 分割 · 即插即用 · 语义分割 ·

2025 年 12 月 30 日

ARM: A Learnable, Plug-and-Play Module for CLIP-based Open-vocabulary Semantic Segmentation

翻译：ARM：一种用于基于CLIP的开放词汇语义分割的可学习即插即用模块

Ziquan Liu,Zhewei Zhu,Xuyang Shi

from arxiv, 10 pages, 4 figures

Open-vocabulary semantic segmentation (OVSS) is fundamentally hampered by the coarse, image-level representations of CLIP, which lack precise pixel-level details. Existing training-free methods attempt to resolve this by either importing priors from costly external foundation models (e.g., SAM, DINO) or by applying static, hand-crafted heuristics to CLIP's internal features. These approaches are either computationally expensive or sub-optimal. We propose the Attention Refinement Module (ARM), a lightweight, learnable module that effectively unlocks and refines CLIP's internal potential. Unlike static-fusion methods, ARM learns to adaptively fuse hierarchical features. It employs a semantically-guided cross-attention block, using robust deep features (K, V) to select and refine detail-rich shallow features (Q), followed by a self-attention block. The key innovation lies in a ``train once, use anywhere" paradigm. Trained once on a general-purpose dataset (e.g., COCO-Stuff), ARM acts as a universal plug-and-play post-processor for diverse training-free frameworks. Extensive experiments show that ARM consistently boosts baseline performance on multiple benchmarks with negligible inference overhead, establishing an efficient and effective paradigm for training-free OVSS.

翻译：开放词汇语义分割（OVSS）从根本上受到CLIP粗糙的图像级表示的阻碍，这些表示缺乏精确的像素级细节。现有的免训练方法试图通过从昂贵的外部基础模型（例如，SAM、DINO）引入先验，或对CLIP的内部特征应用静态的手工启发式规则来解决此问题。这些方法要么计算成本高昂，要么效果欠佳。我们提出了注意力精炼模块（ARM），一个轻量级的可学习模块，能有效解锁并精炼CLIP的内部潜力。与静态融合方法不同，ARM学习自适应地融合分层特征。它采用语义引导的交叉注意力块，利用鲁棒的深层特征（K，V）来选择和精炼富含细节的浅层特征（Q），然后是一个自注意力块。其关键创新在于“一次训练，随处使用”的范式。在通用数据集（例如，COCO-Stuff）上训练一次后，ARM可作为适用于各种免训练框架的通用即插即用后处理器。大量实验表明，ARM能以可忽略的推理开销持续提升多个基准测试上的基线性能，为免训练OVSS建立了一种高效且有效的范式。

0

相关内容

ARM

安谋控股公司，又称ARM公司，跨国性半导体设计与软件公司，总部位于英国英格兰剑桥。主要的产品是ARM架构处理器的设计，将其以知识产权的形式向客户进行授权，同时也提供软件开发工具。维基百科

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

11+阅读 · 2025年5月9日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知会员服务

22+阅读 · 2024年10月23日

缩小CLIP规模：数据、架构与训练策略的全面分析

缩小CLIP规模：数据、架构与训练策略的全面分析

专知会员服务

22+阅读 · 2024年4月15日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

专知会员服务

100+阅读 · 2023年3月27日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

语义分割如何「拉关系」?

语义分割如何「拉关系」?

计算机视觉life

11+阅读 · 2019年2月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

量子位

18+阅读 · 2017年7月10日

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression

CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression

Arxiv

1+阅读 · 2月5日

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation

Arxiv

0+阅读 · 2月5日

ARM: Refining Multivariate Forecasting with Adaptive Temporal-Contextual Learning

Arxiv

0+阅读 · 2月5日

NAG: A Unified Native Architecture for Encoder-free Text-Graph Modeling in Language Models

Arxiv

0+阅读 · 1月30日

SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation

Arxiv

0+阅读 · 1月25日

IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation

Arxiv

0+阅读 · 1月23日

LiteEmbed: Adapting CLIP to Rare Classes

Arxiv

0+阅读 · 1月14日

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

Arxiv

0+阅读 · 1月14日

CLIMP: Contrastive Language-Image Mamba Pretraining

Arxiv

0+阅读 · 1月11日

OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

最新内容

2026“人工智能+”行业发展蓝皮书（附下载）

2026“人工智能+”行业发展蓝皮书（附下载）

专知会员服务

7+阅读 · 今天12:11

《强化学习数学基础》

《强化学习数学基础》

专知会员服务

4+阅读 · 今天12:07

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

6+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

3+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

10+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

9+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

6+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

5+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

5+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

9+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

5+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

7+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

5+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

7+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

6+阅读 · 今天6:09

相关VIP内容

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

11+阅读 · 2025年5月9日

CLIP通用提示学习的简要概述

CLIP通用提示学习的简要概述

专知会员服务

17+阅读 · 2025年3月13日

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

【NeurIPS2024】IPO: 面向视觉-语言模型的可解释提示优化

专知会员服务

22+阅读 · 2024年10月23日

缩小CLIP规模：数据、架构与训练策略的全面分析

缩小CLIP规模：数据、架构与训练策略的全面分析

专知会员服务

22+阅读 · 2024年4月15日

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

【NeurIPS2023】元适配器:面向视觉-语言模型的在线少样本学习器

专知会员服务

24+阅读 · 2023年11月8日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

《预训练具有信息性事实知识和专业知识库的军事语言表示模型》南京理工等

专知会员服务

58+阅读 · 2023年4月21日

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

ChatGPT背后的指令学习是什么？PSU最新首篇《指令学习》技术全面综述，详述指令学习关键问题

专知会员服务

100+阅读 · 2023年3月27日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《强化学习数学基础》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

2026“人工智能+”行业发展蓝皮书（附下载）

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

【微软ICLR2020提交论文】多模态预训练表示UNITER：通用图像-文本语言表示学习

专知

50+阅读 · 2019年10月20日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

语义分割如何「拉关系」?

语义分割如何「拉关系」?

计算机视觉life

11+阅读 · 2019年2月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到各版本DeepLab

量子位

18+阅读 · 2017年7月10日

相关论文

CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression

CLIP-Map: Structured Matrix Mapping for Parameter-Efficient CLIP Compression

Arxiv

1+阅读 · 2月5日

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation

Arxiv

0+阅读 · 2月5日

ARM: Refining Multivariate Forecasting with Adaptive Temporal-Contextual Learning

Arxiv

0+阅读 · 2月5日

NAG: A Unified Native Architecture for Encoder-free Text-Graph Modeling in Language Models

Arxiv

0+阅读 · 1月30日

SPACE-CLIP: Spatial Perception via Adaptive CLIP Embeddings for Monocular Depth Estimation

Arxiv

0+阅读 · 1月25日

IBISAgent: Reinforcing Pixel-Level Visual Reasoning in MLLMs for Universal Biomedical Object Referring and Segmentation

Arxiv

0+阅读 · 1月23日

LiteEmbed: Adapting CLIP to Rare Classes

Arxiv

0+阅读 · 1月14日

OpenVoxel: Training-Free Grouping and Captioning Voxels for Open-Vocabulary 3D Scene Understanding

Arxiv

0+阅读 · 1月14日

CLIMP: Contrastive Language-Image Mamba Pretraining

Arxiv

0+阅读 · 1月11日

OVSeg3R: Learn Open-vocabulary Instance Segmentation from 2D via 3D Reconstruction

Arxiv

0+阅读 · 1月5日

相关基金

面向用户体验的无线异构软件定义网络资源管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于区分型码本的图像表示的研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

移动云计算复杂网络环境下任务粒度的应用划分和调度方法

国家自然科学基金

0+阅读 · 2015年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向信息安全芯片的物理不可克隆函数电路建模与实现

国家自然科学基金

0+阅读 · 2014年12月31日

超分辨率中的矩阵值算子学习问题

国家自然科学基金

1+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员