LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation - 专知论文

会员服务 ·

0

分割 · 融合 · 语义分割 · 全局特征 · 类别 ·

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation

翻译：LoGoSeg：融合局部与全局特征的开集词汇语义分割

Junyang Chen,Xiangbo Lv,Zhiqiang Kou,Xingdong Sheng,Ning Xu,Yiguo Qiao

Open-vocabulary semantic segmentation (OVSS) extends traditional closed-set segmentation by enabling pixel-wise annotation for both seen and unseen categories using arbitrary textual descriptions. While existing methods leverage vision-language models (VLMs) like CLIP, their reliance on image-level pretraining often results in imprecise spatial alignment, leading to mismatched segmentations in ambiguous or cluttered scenes. However, most existing approaches lack strong object priors and region-level constraints, which can lead to object hallucination or missed detections, further degrading performance. To address these challenges, we propose LoGoSeg, an efficient single-stage framework that integrates three key innovations: (i) an object existence prior that dynamically weights relevant categories through global image-text similarity, effectively reducing hallucinations; (ii) a region-aware alignment module that establishes precise region-level visual-textual correspondences; and (iii) a dual-stream fusion mechanism that optimally combines local structural information with global semantic context. Unlike prior works, LoGoSeg eliminates the need for external mask proposals, additional backbones, or extra datasets, ensuring efficiency. Extensive experiments on six benchmarks (A-847, PC-459, A-150, PC-59, PAS-20, and PAS-20b) demonstrate its competitive performance and strong generalization in open-vocabulary settings.

翻译：开集词汇语义分割（OVSS）通过使用任意文本描述对可见与不可见类别进行像素级标注，扩展了传统闭集分割。现有方法虽利用CLIP等视觉语言模型（VLM），但其对图像级预训练的依赖常导致空间对齐不精确，在模糊或杂乱场景中产生误匹配分割。然而，多数现有方法缺乏强目标先验和区域级约束，易引发目标幻觉或漏检，进一步降低性能。为解决这些挑战，我们提出LoGoSeg——一个高效的单阶段框架，其整合了三项关键创新：（i）通过全局图文相似性动态加权相关类别的目标存在先验，有效抑制幻觉；（ii）建立精确区域级视觉-文本对应关系的区域感知对齐模块；（iii）将局部结构信息与全局语义上下文最优结合的双流融合机制。与先前工作不同，LoGoSeg无需外部掩码建议、额外骨干网络或附加数据集，确保了高效性。在六个基准数据集（A-847、PC-459、A-150、PC-59、PAS-20和PAS-20b）上的大量实验表明，该方法在开集词汇设定下具有竞争优势和强泛化能力。

0

相关内容

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

纵览图像语义分割发展史，11篇关键文章简介

纵览图像语义分割发展史，11篇关键文章简介

专知

13+阅读 · 2019年8月1日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

DL | 语义分割综述

DL | 语义分割综述

机器学习算法与Python学习

58+阅读 · 2019年3月13日

语义分割如何「拉关系」?

语义分割如何「拉关系」?

计算机视觉life

11+阅读 · 2019年2月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

语义分割+视频分割开源代码集合

语义分割+视频分割开源代码集合

极市平台

35+阅读 · 2018年3月5日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

基于全局阈值分割和局部聚类的自然图像超像素分割技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

Arxiv

0+阅读 · 3月18日

Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

Arxiv

0+阅读 · 3月16日

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Arxiv

0+阅读 · 3月6日

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Arxiv

0+阅读 · 2月26日

OVSegDT: Segmenting Transformer for Open-Vocabulary Object Goal Navigation

Arxiv

0+阅读 · 2月24日

LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

Arxiv

0+阅读 · 2月18日

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

Arxiv

0+阅读 · 2月11日

SegNSP: Revisiting Next Sentence Prediction for Linear Text Segmentation

Arxiv

0+阅读 · 2月11日

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation

Arxiv

0+阅读 · 2月5日

Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

4+阅读 · 5月31日

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

3+阅读 · 5月31日

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

3+阅读 · 5月31日

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

2+阅读 · 5月31日

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

5+阅读 · 5月31日

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 5月31日

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

5+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

7+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

18+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

9+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

10+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

14+阅读 · 5月29日

相关VIP内容

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

【NeurIPS2025】Seg4Diff：揭示文本到图像扩散 Transformer 中的开放词汇分割

专知会员服务

10+阅读 · 2025年9月23日

零训练开放词汇语义分割综述

零训练开放词汇语义分割综述

专知会员服务

11+阅读 · 2025年5月31日

视觉-语言模型在物体检测与分割中的应用：综述与评估

视觉-语言模型在物体检测与分割中的应用：综述与评估

专知会员服务

25+阅读 · 2025年4月28日

基于深度学习的实时语义分割综述

基于深度学习的实时语义分割综述

专知会员服务

32+阅读 · 2023年11月27日

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

什么是开放词汇检测？港科大等最新《开放词汇检测和分割综述：过去、现在与未来》

专知会员服务

28+阅读 · 2023年7月21日

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割

专知会员服务

25+阅读 · 2023年3月12日

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

上海交大最新《标签高效深度分割》研究进展综述，全面阐述无监督、粗监督、不完全监督和噪声监督的深度分割方法

专知会员服务

42+阅读 · 2022年7月7日

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

【CVPR 2022-UCSD&英伟达】GroupViT:从文本监督中产生语义分割，Semantic Segmentation Emerges from Text Supervision

专知会员服务

12+阅读 · 2022年3月9日

【ACMMM2020】零样本语义分割的上下文感知特征生成

【ACMMM2020】零样本语义分割的上下文感知特征生成

专知会员服务

16+阅读 · 2020年8月21日

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

【论文推荐】不同图像域弱监督语义分割的综合分析，A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains

专知会员服务

28+阅读 · 2019年12月27日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

纵览图像语义分割发展史，11篇关键文章简介

纵览图像语义分割发展史，11篇关键文章简介

专知

13+阅读 · 2019年8月1日

超详细干货 | 三维语义分割概述及总结

超详细干货 | 三维语义分割概述及总结

计算机视觉life

33+阅读 · 2019年3月19日

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

图像分割最新资料汇总（语义分割、实例分割、视频分割、医疗图像分割、自动驾驶…）

人工智能前沿讲习班

144+阅读 · 2019年3月15日

DL | 语义分割综述

DL | 语义分割综述

机器学习算法与Python学习

58+阅读 · 2019年3月13日

语义分割如何「拉关系」?

语义分割如何「拉关系」?

计算机视觉life

11+阅读 · 2019年2月15日

超像素、语义分割、实例分割、全景分割傻傻分不清？

超像素、语义分割、实例分割、全景分割傻傻分不清？

计算机视觉life

19+阅读 · 2018年11月27日

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

【语义分割】一文概览主要语义分割网络：FCN,SegNet,U-Net...

产业智能官

18+阅读 · 2018年7月26日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

语义分割+视频分割开源代码集合

语义分割+视频分割开源代码集合

极市平台

35+阅读 · 2018年3月5日

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

语义分割中的深度学习方法全解：从FCN、SegNet到DeepLab

炼数成金订阅号

26+阅读 · 2017年7月10日

相关论文

PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation

Arxiv

0+阅读 · 3月18日

Seeing Beyond: Extrapolative Domain Adaptive Panoramic Segmentation

Arxiv

0+阅读 · 3月16日

SCOPE: Scene-Contextualized Incremental Few-Shot 3D Segmentation

Arxiv

0+阅读 · 3月6日

Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Arxiv

0+阅读 · 2月26日

OVSegDT: Segmenting Transformer for Open-Vocabulary Object Goal Navigation

Arxiv

0+阅读 · 2月24日

LMSeg: Unleashing the Power of Large-Scale Models for Open-Vocabulary Semantic Segmentation

Arxiv

0+阅读 · 2月18日

GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation

Arxiv

0+阅读 · 2月11日

SegNSP: Revisiting Next Sentence Prediction for Linear Text Segmentation

Arxiv

0+阅读 · 2月11日

LoGoSeg: Integrating Local and Global Features for Open-Vocabulary Semantic Segmentation

Arxiv

0+阅读 · 2月5日

Seg-ReSearch: Segmentation with Interleaved Reasoning and External Search

Arxiv

0+阅读 · 2月4日

相关基金

基于全局阈值分割和局部聚类的自然图像超像素分割技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于部件结构的图像协同分割方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于形状信息和结果反馈的多图谱图像分割方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

随机映射框架下的图像语义分析与提取技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于复杂语义的个性化图像集摘要研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

数据驱动的人体图像语义分割研究

国家自然科学基金

5+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员