Crack detection plays an important role in infrastructure inspection and Structural Health Monitoring (SHM). However, cracks typically appear as thin, low-contrast structures and are easily affected by background noise, posing challenges for existing object detection models. This study proposes an improved YOLO-based architecture with integrated attention mechanisms, termed YOLO-AMC (YOLO with Attention Mechanisms for Crack Detection), to enhance automated crack detection performance. Based on YOLOv11, the original C2PSA module is removed, and multiple attention mechanisms, including Global Attention Mechanism (GAM), Residual Convolutional Block Attention Module (Res-CBAM), and Shuffle Attention (SA), are introduced into the multi-scale feature fusion layers of the Neck to strengthen cross-scale feature integration. Experimental results demonstrate that YOLO-AMC consistently outperforms baseline models YOLOv11n and YOLOv8n across multiple evaluation metrics. Among the evaluated attention modules, GAM achieves the best detection performance, obtaining [email protected] = 0.9917 and [email protected]:0.95 = 0.9506 on the test dataset, which are higher than those of YOLOv11 (0.9833 / 0.9112) and YOLOv8 (0.9707 / 0.8921). Furthermore, while maintaining a computational complexity of 7.6 GFLOPs, the proposed model achieves 110.95 FPS on an NVIDIA RTX 4090 platform and approximately 5 FPS on a Raspberry Pi 5 edge device, demonstrating a favorable trade-off between accuracy and deployment efficiency. The implementation code for this study is available on GitHub at https://github.com/CY-Tsai24/YOLO-AMC.


翻译:裂缝检测在基础设施检查与结构健康监测(SHM)中具有重要作用。然而,裂缝通常表现为细长、低对比度的结构,且易受背景噪声影响,给现有目标检测模型带来了挑战。本研究提出了一种基于YOLO的改进型架构,集成多种注意力机制,命名为YOLO-AMC(用于裂缝检测的注意力增强型YOLO),以提升自动裂缝检测性能。在YOLOv11基础上,移除了原始C2PSA模块,并在颈部多尺度特征融合层中引入全局注意力机制(GAM)、残差卷积块注意力模块(Res-CBAM)和随机注意力(SA),以强化跨尺度特征整合。实验结果表明,YOLO-AMC在多项评估指标上均持续优于基准模型YOLOv11n和YOLOv8n。在评估的注意力模块中,GAM实现了最佳检测性能,在测试数据集上获得[email protected]=0.9917和[email protected]:0.95=0.9506,高于YOLOv11(0.9833/0.9112)和YOLOv8(0.9707/0.8921)。此外,在保持7.6 GFLOPs计算复杂度的同时,所提模型在NVIDIA RTX 4090平台上达到110.95 FPS,在树莓派5边缘设备上约为5 FPS,展现了精度与部署效率之间的良好平衡。本研究的实现代码已在GitHub上开源,地址为https://github.com/CY-Tsai24/YOLO-AMC。

0
下载
关闭预览

相关内容

Yolo算法,其全称是You Only Look Once: Unified, Real-Time Object Detection,You Only Look Once说的是只需要一次CNN运算,Unified指的是这是一个统一的框架,提供end-to-end的预测,而Real-Time体现是Yolo算法速度快。
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
YOLOv1 到 YOLOv10:最快且最准确的实时目标检测系统
专知会员服务
42+阅读 · 2024年8月22日
《复杂断裂的计算机视觉定量分析》美陆军报告
专知会员服务
24+阅读 · 2023年7月4日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
理解 YOLO 目标检测
AI研习社
22+阅读 · 2018年11月5日
YOLO V3 检测框架以及它的前世今生 | Paper Reading
MomentaAI
12+阅读 · 2018年5月15日
从零开始PyTorch项目:YOLO v3目标检测实现
机器之心
15+阅读 · 2018年4月23日
【下载】PyTorch 实现的YOLO v2目标检测算法
专知
15+阅读 · 2017年12月27日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
YOLOv1 到 YOLOv10:最快且最准确的实时目标检测系统
专知会员服务
42+阅读 · 2024年8月22日
《复杂断裂的计算机视觉定量分析》美陆军报告
专知会员服务
24+阅读 · 2023年7月4日
基于图注意力机制和Transformer的异常检测
专知会员服务
62+阅读 · 2022年5月16日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员