Automated road sign recognition is a critical task for intelligent transportation systems, but traditional deep learning methods struggle with the sheer number of sign classes and the impracticality of creating exhaustive labeled datasets. This paper introduces a novel zero-shot recognition framework that adapts the Retrieval-Augmented Generation (RAG) paradigm to address this challenge. Our method first uses a Vision Language Model (VLM) to generate a textual description of a sign from an input image. This description is used to retrieve a small set of the most relevant sign candidates from a vector database of reference designs. Subsequently, a Large Language Model (LLM) reasons over the retrieved candidates to make a final, fine-grained recognition. We validate this approach on a comprehensive set of 303 regulatory signs from the Ohio MUTCD. Experimental results demonstrate the framework's effectiveness, achieving 95.58% accuracy on ideal reference images and 82.45% on challenging real-world road data. This work demonstrates the viability of RAG-based architectures for creating scalable and accurate systems for road sign recognition without task-specific training.


翻译:自动化交通标志识别是智能交通系统的一项关键任务,但传统的深度学习方法难以应对庞大的标志类别数量以及创建详尽标注数据集的不切实际性。本文提出了一种新颖的零样本识别框架,通过采用检索增强生成范式来应对这一挑战。我们的方法首先使用视觉语言模型从输入图像中生成标志的文本描述。该描述用于从参考设计的向量数据库中检索一小部分最相关的候选标志。随后,一个大语言模型对检索到的候选标志进行推理,以做出最终的细粒度识别。我们在俄亥俄州MUTCD的303个规范性标志组成的综合数据集上验证了该方法。实验结果表明该框架的有效性,在理想参考图像上达到了95.58%的准确率,在具有挑战性的真实道路数据上达到了82.45%的准确率。这项工作证明了基于RAG的架构能够在不进行任务特定训练的情况下,为交通标志识别创建可扩展且准确的系统。

0
下载
关闭预览

相关内容

论文浅尝 | Know-Evolve: Deep Temporal Reasoning for Dynamic KG
开放知识图谱
36+阅读 · 2018年3月30日
语义分割中的深度学习方法全解:从FCN、SegNet到DeepLab
炼数成金订阅号
26+阅读 · 2017年7月10日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2025年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员