Autonomous inspection of underground infrastructure, such as sewer and culvert systems, is critical to public safety and urban sustainability. Although robotic platforms equipped with visual sensors can efficiently detect structural deficiencies, the automated generation of human-readable summaries from these detections remains a significant challenge, especially on resource-constrained edge devices. This paper presents a novel two-stage pipeline for end-to-end summarization of underground deficiencies, combining our lightweight RAPID-SCAN segmentation model with a fine-tuned Vision-Language Model (VLM) deployed on an edge computing platform. The first stage employs RAPID-SCAN (Resource-Aware Pipeline Inspection and Defect Segmentation using Compact Adaptive Network), achieving 0.834 F1-score with only 0.64M parameters for efficient defect segmentation. The second stage utilizes a fine-tuned Phi-3.5 VLM that generates concise, domain-specific summaries in natural language from the segmentation outputs. We introduce a curated dataset of inspection images with manually verified descriptions for VLM fine-tuning and evaluation. To enable real-time performance, we employ post-training quantization with hardware-specific optimization, achieving significant reductions in model size and inference latency without compromising summarization quality. We deploy and evaluate our complete pipeline on a mobile robotic platform, demonstrating its effectiveness in real-world inspection scenarios. Our results show the potential of edge-deployable integrated AI systems to bridge the gap between automated defect detection and actionable insights for infrastructure maintenance, paving the way for more scalable and autonomous inspection solutions.


翻译:地下基础设施(如下水道和涵洞系统)的自主巡检对公共安全和城市可持续性至关重要。尽管配备视觉传感器的机器人平台能够高效检测结构缺陷,但从这些检测结果自动生成人类可读的摘要仍是一项重大挑战,尤其是在资源受限的边缘设备上。本文提出了一种用于地下缺陷端到端摘要生成的新型两阶段流程,将我们轻量级的RAPID-SCAN分割模型与部署在边缘计算平台上的微调视觉语言模型相结合。第一阶段采用RAPID-SCAN(基于紧凑自适应网络的资源感知管道巡检与缺陷分割模型),仅用0.64M参数即可实现0.834的F1分数,实现高效缺陷分割。第二阶段利用微调的Phi-3.5视觉语言模型,从分割输出中生成简洁的领域特定自然语言摘要。我们引入了一个包含人工验证描述的巡检图像数据集,用于视觉语言模型的微调和评估。为实现实时性能,我们采用结合硬件特定优化的训练后量化技术,在保持摘要质量的同时显著降低了模型大小和推理延迟。我们在移动机器人平台上部署并评估了完整流程,证明了其在真实巡检场景中的有效性。我们的研究结果表明,可边缘部署的集成人工智能系统有望弥合自动缺陷检测与基础设施维护可行见解之间的鸿沟,为更具可扩展性和自主性的巡检解决方案铺平道路。

0
下载
关闭预览

相关内容

《面向边缘智能应用的AI模型优化技术研究》139页
专知会员服务
41+阅读 · 2025年8月12日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
《改进水下恶劣条件下人机协作的机器视觉》252页
专知会员服务
29+阅读 · 2024年3月13日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
33+阅读 · 2022年3月18日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
123+阅读 · 2020年3月30日
边缘智能发展与演进白皮书
物联网智库
13+阅读 · 2019年6月17日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
实战|手把手教你实现图象边缘检测!
全球人工智能
10+阅读 · 2018年1月19日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
《面向边缘智能应用的AI模型优化技术研究》139页
专知会员服务
41+阅读 · 2025年8月12日
《面向视觉语言地理基础模型》综述
专知会员服务
47+阅读 · 2024年6月15日
《改进水下恶劣条件下人机协作的机器视觉》252页
专知会员服务
29+阅读 · 2024年3月13日
【CVPR2022】EDTER:基于Transformer的边缘检测(CVPR2022)
专知会员服务
33+阅读 · 2022年3月18日
【边缘智能综述论文】A Survey on Edge Intelligence
专知会员服务
123+阅读 · 2020年3月30日
Top
微信扫码咨询专知VIP会员