Glass surface ubiquitous in both daily life and professional environments presents a potential threat to vision-based systems, such as robot and drone navigation. To solve this challenge, most recent studies have shown significant interest in Video Glass Surface Detection (VGSD). We observe that objects in the reflection (or transmission) layer appear farther from the glass surfaces. Consequently, in video motion scenarios, the notable reflected (or transmitted) objects on the glass surface move slower than objects in non-glass regions within the same spatial plane, and this motion inconsistency can effectively reveal the presence of glass surfaces. Based on this observation, we propose a novel network, named MVGD-Net, for detecting glass surfaces in videos by leveraging motion inconsistency cues. Our MVGD-Net features three novel modules: the Cross-scale Multimodal Fusion Module (CMFM) that integrates extracted spatial features and estimated optical flow maps, the History Guided Attention Module (HGAM) and Temporal Cross Attention Module (TCAM), both of which further enhances temporal features. A Temporal-Spatial Decoder (TSD) is also introduced to fuse the spatial and temporal features for generating the glass region mask. Furthermore, for learning our network, we also propose a large-scale dataset, which comprises 312 diverse glass scenarios with a total of 19,268 frames. Extensive experiments demonstrate that our MVGD-Net outperforms relevant state-of-the-art methods.


翻译:玻璃表面在日常生活中和专业环境中无处不在,对基于视觉的系统(如机器人和无人机导航)构成潜在威胁。为应对这一挑战,近期大多数研究对视频玻璃表面检测(VGSD)展现出浓厚兴趣。我们观察到,反射(或透射)层中的物体看起来距离玻璃表面更远。因此,在视频运动场景中,玻璃表面上显著的反射(或透射)物体在同一空间平面内比非玻璃区域中的物体移动得更慢,而这种运动不一致性可以有效揭示玻璃表面的存在。基于这一观察,我们提出了一种新颖的网络,命名为MVGD-Net,通过利用运动不一致性线索来检测视频中的玻璃表面。我们的MVGD-Net具有三个新颖模块:跨尺度多模态融合模块(CMFM),用于整合提取的空间特征和估计的光流图;历史引导注意力模块(HGAM)和时间交叉注意力模块(TCAM),两者均进一步增强了时序特征。我们还引入了时空解码器(TSD)来融合空间和时序特征以生成玻璃区域掩码。此外,为训练我们的网络,我们还提出了一个大规模数据集,包含312个多样化的玻璃场景,总计19,268帧。大量实验表明,我们的MVGD-Net优于相关的先进方法。

0
下载
关闭预览

相关内容

基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
专知会员服务
34+阅读 · 2021年9月16日
专知会员服务
11+阅读 · 2021年2月4日
视觉里程计:起源、优势、对比、应用
计算机视觉life
18+阅读 · 2017年7月17日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《基于Transformer的异常舰船导航识别与跟踪》80页
《低数据领域军事目标检测模型研究》
专知会员服务
0+阅读 · 16分钟前
【CMU博士论文】物理世界的视觉感知与深度理解
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
8+阅读 · 4月22日
电子战革命:塑造战场的十年突破(2015–2025)
人工智能即服务与未来战争(印度视角)
专知会员服务
4+阅读 · 4月22日
《美国战争部2027财年军事人员预算》
专知会员服务
3+阅读 · 4月22日
伊朗战争中的电子战
专知会员服务
5+阅读 · 4月22日
大语言模型平台在国防情报应用中的对比
专知会员服务
9+阅读 · 4月22日
相关VIP内容
基于视觉-语言模型的3D物体检测综述
专知会员服务
15+阅读 · 2025年4月29日
专知会员服务
34+阅读 · 2021年9月16日
专知会员服务
11+阅读 · 2021年2月4日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员