Open-vocabulary scene sketch semantic segmentation aims to assign dense semantic labels to sparse line drawings based on flexible category vocabularies specified at inference time, without relying on pixel-level annotations during training. Unlike natural images, sketches lack texture and color cues, making semantic understanding heavily dependent on stroke layout and spatial configuration, a challenge that renders single-layer vision-language features inherently unstable. Our key observation is that attention maps from different Vision Transformer layers encode complementary spatial cues: shallow layers capture global structural layouts, while deeper layers focus on local stroke intersections and object parts. This suggests that cross-layer aggregation provides a more robust structural prior than any individual layer alone. Leveraging this insight, we propose a structure-aware framework built upon \textbf{L}ayer-wise \textbf{A}ccumulated \textbf{S}tructural \textbf{A}ttention (\textbf{LASA}), which aggregates multi-layer attention to guide hierarchical semantic alignment under weak supervision and refine predictions during inference. Experiments on FS-COCO, SFSD, and FrISS show that LASA improves mIoU by $+3.43$, $+8.01$, and $+15.74$ over the prior weakly supervised baselines, demonstrating consistent gains in both segmentation accuracy and spatial coherence. Our source code will be made publicly available.


翻译:开放词汇场景草图语义分割旨在基于推理时指定的灵活类别词汇,为稀疏线条图赋予密集语义标签,且训练过程无需依赖像素级标注。与自然图像不同,草图缺乏纹理和颜色线索,其语义理解高度依赖笔画布局与空间配置——这一挑战导致单层视觉-语言特征本质上不稳定。我们的关键观察是:不同Vision Transformer层生成的注意力图编码了互补的空间线索——浅层捕获全局结构布局,深层聚焦局部笔画交点和物体部件。这表明跨层聚合比单层能提供更稳健的结构先验。基于此洞察,我们提出了一个结构感知框架,该框架建立在**逐层累积结构注意力(LASA)**之上,通过聚合多层注意力在弱监督下指导层次化语义对齐,并在推理阶段优化预测。在FS-COCO、SFSD和FrISS上的实验表明,LASA在mIoU上相较于先前的弱监督基线分别提升了$+3.43$、$+8.01$和$+15.74$,展示了在分割精度与空间一致性上的持续增益。我们的源代码将公开发布。

0
下载
关闭预览

相关内容

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
专知会员服务
87+阅读 · 2021年1月7日
专知会员服务
47+阅读 · 2020年10月5日
专知会员服务
42+阅读 · 2020年2月20日
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
【CVPR2023】基于文本到图像扩散模型的开放词汇全景分割
专知会员服务
87+阅读 · 2021年1月7日
专知会员服务
47+阅读 · 2020年10月5日
专知会员服务
42+阅读 · 2020年2月20日
相关资讯
DL | 语义分割综述
机器学习算法与Python学习
58+阅读 · 2019年3月13日
语义分割如何「拉关系」?
计算机视觉life
11+阅读 · 2019年2月15日
见微知著:语义分割中的弱监督学习
深度学习大讲堂
11+阅读 · 2017年12月6日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员