In autonomous driving and robotics, ensuring road safety and reliable decision-making critically depends on out-of-distribution (OOD) segmentation. While numerous methods have been proposed to detect anomalous objects on the road, leveraging the vision-language space-which provides rich linguistic knowledge-remains an underexplored field. We hypothesize that incorporating these linguistic cues can be especially beneficial in the complex contexts found in real-world autonomous driving scenarios. To this end, we present a novel approach that trains a Text-Driven OOD Segmentation model to learn a semantically diverse set of objects in the vision-language space. Concretely, our approach combines a vision-language model's encoder with a transformer decoder, employs Distance-Based OOD prompts located at varying semantic distances from in-distribution (ID) classes, and utilizes OOD Semantic Augmentation for OOD representations. By aligning visual and textual information, our approach effectively generalizes to unseen objects and provides robust OOD segmentation in diverse driving environments. We conduct extensive experiments on publicly available OOD segmentation datasets such as Fishyscapes, Segment-Me-If-You-Can, and Road Anomaly datasets, demonstrating that our approach achieves state-of-the-art performance across both pixel-level and object-level evaluations. This result underscores the potential of vision-language-based OOD segmentation to bolster the safety and reliability of future autonomous driving systems.


翻译:在自动驾驶与机器人领域,确保道路安全与可靠决策的关键在于分布外(OOD)分割。尽管已有众多方法被提出用于检测道路上的异常物体,但利用视觉-语言空间——其蕴含丰富的语言知识——仍是一个尚未充分探索的领域。我们假设,在现实世界自动驾驶场景的复杂语境中,融入这些语言线索可能尤为有益。为此,我们提出一种新颖方法,训练一个文本驱动的OOD分割模型,以学习视觉-语言空间中语义多样化的物体集合。具体而言,我们的方法结合了视觉-语言模型的编码器与Transformer解码器,采用基于距离的OOD提示(这些提示位于与分布内(ID)类别不同语义距离的位置),并利用OOD语义增强技术优化OOD表征。通过对齐视觉与文本信息,我们的方法能有效泛化至未见物体,并在多样化的驾驶环境中提供鲁棒的OOD分割。我们在公开可用的OOD分割数据集(如Fishyscapes、Segment-Me-If-You-Can和Road Anomaly数据集)上进行了广泛实验,结果表明我们的方法在像素级和物体级评估中均达到了最先进的性能。这一成果凸显了基于视觉-语言的OOD分割在提升未来自动驾驶系统安全性与可靠性方面的潜力。

0
下载
关闭预览

相关内容

Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
Pytorch多模态框架MMF
专知
50+阅读 · 2020年6月20日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员