MVGD-Net: A Novel Motion-aware Video Glass Surface Detection Network - 专知论文

会员服务 ·

0

视频 · 表面检测 · 运动感知 · 不一致性 · 一致 ·

MVGD-Net: A Novel Motion-aware Video Glass Surface Detection Network

翻译：MVGD-Net：一种新颖的运动感知视频玻璃表面检测网络

Yiwei Lu,Hao Huang,Tao Yan

from arxiv, This paper has been accepted by the 40th AAAI Conference on Artificial Intelligence (AAAI-26). It contians 9 pages, 11 figures

Glass surface ubiquitous in both daily life and professional environments presents a potential threat to vision-based systems, such as robot and drone navigation. To solve this challenge, most recent studies have shown significant interest in Video Glass Surface Detection (VGSD). We observe that objects in the reflection (or transmission) layer appear farther from the glass surfaces. Consequently, in video motion scenarios, the notable reflected (or transmitted) objects on the glass surface move slower than objects in non-glass regions within the same spatial plane, and this motion inconsistency can effectively reveal the presence of glass surfaces. Based on this observation, we propose a novel network, named MVGD-Net, for detecting glass surfaces in videos by leveraging motion inconsistency cues. Our MVGD-Net features three novel modules: the Cross-scale Multimodal Fusion Module (CMFM) that integrates extracted spatial features and estimated optical flow maps, the History Guided Attention Module (HGAM) and Temporal Cross Attention Module (TCAM), both of which further enhances temporal features. A Temporal-Spatial Decoder (TSD) is also introduced to fuse the spatial and temporal features for generating the glass region mask. Furthermore, for learning our network, we also propose a large-scale dataset, which comprises 312 diverse glass scenarios with a total of 19,268 frames. Extensive experiments demonstrate that our MVGD-Net outperforms relevant state-of-the-art methods.

翻译：玻璃表面在日常生活中和专业环境中无处不在，对基于视觉的系统（如机器人和无人机导航）构成潜在威胁。为应对这一挑战，近期大多数研究对视频玻璃表面检测（VGSD）展现出浓厚兴趣。我们观察到，反射（或透射）层中的物体看起来距离玻璃表面更远。因此，在视频运动场景中，玻璃表面上显著的反射（或透射）物体在同一空间平面内比非玻璃区域中的物体移动得更慢，而这种运动不一致性可以有效揭示玻璃表面的存在。基于这一观察，我们提出了一种新颖的网络，命名为MVGD-Net，通过利用运动不一致性线索来检测视频中的玻璃表面。我们的MVGD-Net具有三个新颖模块：跨尺度多模态融合模块（CMFM），用于整合提取的空间特征和估计的光流图；历史引导注意力模块（HGAM）和时间交叉注意力模块（TCAM），两者均进一步增强了时序特征。我们还引入了时空解码器（TSD）来融合空间和时序特征以生成玻璃区域掩码。此外，为训练我们的网络，我们还提出了一个大规模数据集，包含312个多样化的玻璃场景，总计19,268帧。大量实验表明，我们的MVGD-Net优于相关的先进方法。

0

相关内容

视频

基于视觉-语言模型的3D物体检测综述

基于视觉-语言模型的3D物体检测综述

专知会员服务

15+阅读 · 2025年4月29日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

专知会员服务

35+阅读 · 2020年3月25日

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

专知会员服务

36+阅读 · 2020年3月12日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

36大数据

14+阅读 · 2019年3月16日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于微镜器件和复合传感器的高反射回转面缺陷检测新方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿复眼视觉系统光谱-偏振敏感机制的水下目标检测方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition

Arxiv

0+阅读 · 2月13日

VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Mamba-based Spatio-Frequency Motion Perception for Video Camouflaged Object Detection

Arxiv

0+阅读 · 2月8日

UniVRSE: Unified Vision-conditioned Response Semantic Entropy for Hallucination Detection in Medical Vision-Language Models

Arxiv

0+阅读 · 2月4日

Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents

Arxiv

0+阅读 · 2月2日

RF-MatID: Dataset and Benchmark for Radio Frequency Material Identification

Arxiv

0+阅读 · 1月28日

FTDMamba: Frequency-Assisted Temporal Dilation Mamba for Unmanned Aerial Vehicle Video Anomaly Detection

Arxiv

0+阅读 · 1月16日

DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection

Arxiv

1+阅读 · 1月15日

Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs

Arxiv

0+阅读 · 1月13日

ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving

Arxiv

0+阅读 · 1月13日

VIP会员

文章信息

相关主题

最新内容

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

3+阅读 · 今天4:55

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

5+阅读 · 今天2:29

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

5+阅读 · 今天2:06

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

5+阅读 · 今天1:54

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

7+阅读 · 今天1:51

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

4+阅读 · 今天1:38

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

3+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

3+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

6+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

14+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

13+阅读 · 6月11日

以人工智能为中心的指挥控制

以人工智能为中心的指挥控制

专知会员服务

5+阅读 · 6月11日

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

《通过适应复杂环境与特殊作战行动动态来变革情报周期》

专知会员服务

4+阅读 · 6月11日

相关VIP内容

基于视觉-语言模型的3D物体检测综述

基于视觉-语言模型的3D物体检测综述

专知会员服务

15+阅读 · 2025年4月29日

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

什么是鸟瞰图感知(BEV)?上海AI实验室与商汤等最新《鸟瞰图视觉感知》综述，26页pdf阐述BEV 最新回顾、评价与方法

专知会员服务

71+阅读 · 2022年9月14日

生成式对抗网络异常检测，GANs for Anomaly Detection

专知会员服务

34+阅读 · 2021年9月16日

【AAAI2021】MVFNet: 用于高效视频识别的多视角融合网络

专知会员服务

11+阅读 · 2021年2月4日

【视频目标检测与跟踪：综述论文】Video Object Segmentation and Tracking: A Survey

专知会员服务

66+阅读 · 2020年6月4日

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

【滑铁卢大学】新冠肺炎网络COVID-Net:一种定制的深卷积神经网络设计，用于从胸片图像中检测COVID-19

专知会员服务

35+阅读 · 2020年3月25日

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

专知会员服务

36+阅读 · 2020年3月12日

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

【ICCV2019教程】物体检测的R-CNN通用框架，The Generalized R-CNN Framework for Object Detection，180页ppt，Facebook 人工智能研究院Ross Girshick大神

专知会员服务

25+阅读 · 2019年11月16日

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

Aspect-Oriented Syntax Network for Aspect-Based Sentiment Analysis，中山大学数据科学与计算机学院权小军教授，第八届全国社会媒体处理大会SMP2019

专知会员服务

19+阅读 · 2019年10月22日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

基于博弈论的陆军人机协同（长文报告）

乌克兰战场背后的新武器

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

相关资讯

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

将U-Net用于图像去雾任务，一种具有密集特征融合的多尺度增强去雾网络 | CVPR2020

CVer

12+阅读 · 2020年6月30日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

何恺明团队开源3D目标检测新框架VoteNet：模型更简单、效率更高

AI前线

15+阅读 · 2019年9月1日

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

CVPR 2019 | 告别低分辨率网络，微软提出高分辨率深度神经网络HRNet

微软研究院AI头条

14+阅读 · 2019年5月21日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

基于深度学习的目标检测技术演进：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD

36大数据

14+阅读 · 2019年3月16日

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

CVPR 2019：中科院、牛津等提出SiamMask网络，视频跟踪最高精度

新智元

11+阅读 · 2019年3月8日

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

基于 TensorFlow 、OpenCV 和 Docker 的实时视频目标检测

AI研习社

10+阅读 · 2018年7月23日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

相关论文

EPRBench: A High-Quality Benchmark Dataset for Event Stream Based Visual Place Recognition

Arxiv

0+阅读 · 2月13日

VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Mamba-based Spatio-Frequency Motion Perception for Video Camouflaged Object Detection

Arxiv

0+阅读 · 2月8日

UniVRSE: Unified Vision-conditioned Response Semantic Entropy for Hallucination Detection in Medical Vision-Language Models

Arxiv

0+阅读 · 2月4日

Mobile-Bench-v2: A More Realistic and Comprehensive Benchmark for VLM-based Mobile Agents

Arxiv

0+阅读 · 2月2日

RF-MatID: Dataset and Benchmark for Radio Frequency Material Identification

Arxiv

0+阅读 · 1月28日

FTDMamba: Frequency-Assisted Temporal Dilation Mamba for Unmanned Aerial Vehicle Video Anomaly Detection

Arxiv

0+阅读 · 1月16日

DFIR-DETR: Frequency Domain Enhancement and Dynamic Feature Aggregation for Cross-Scene Small Object Detection

Arxiv

1+阅读 · 1月15日

Towards Safer Mobile Agents: Scalable Generation and Evaluation of Diverse Scenarios for VLMs

Arxiv

0+阅读 · 1月13日

ViewMorpher3D: A 3D-aware Diffusion Framework for Multi-Camera Novel View Synthesis in Autonomous Driving

Arxiv

0+阅读 · 1月13日

相关基金

基于视觉特性的目标检测算法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于微镜器件和复合传感器的高反射回转面缺陷检测新方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于移动平台的视频信息隐藏关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于压缩感知的网络层析成像技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

仿复眼视觉系统光谱-偏振敏感机制的水下目标检测方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向无线多媒体传感器网络的高效压缩视频感知

国家自然科学基金

0+阅读 · 2015年12月31日

在线检测工件表面质量的“透明窗”方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

场景深度关系下的视频遮挡目标检测

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

移动终端视频目标快速识别技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员