Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators - 专知论文

会员服务 ·

0

内存 · 故障检测 · 负载 · 片上检测 · 系统 ·

Towards Efficient and Accurate Detection of On-Chip Fail-Slow Failures for Many-Core Accelerators

翻译：面向多核加速器片上缓速故障的高效精准检测

Junchi Wu,Xinfei Wan,Zhuoran Li,Yuyang Jin,Guangyu Sun,Yun Liang,Diyu Zhou,Youwei Zhuo

from arxiv, 15 pages, 17 figures

Many-core accelerators are essential for high-performance deep learning, but their performance is undermined by widespread fail-slow failures. Detecting such failures on-chip is challenging, as prior methods from distributed systems are unsuitable due to strict memory limits and their inability to track failures across the hardware topology. This paper introduces SLOTH, a lightweight, hardware-aware framework for practical on-chip fail-slow detection in many-core accelerators. SLOTH combines workload-aware instrumentation for operator-level monitoring with minimal overhead, on-the-fly trace compression to operate within kilobytes of memory, and a novel topology-aware ranking algorithm to pinpoint a failure's root cause. We evaluate SLOTH on a wide range of representative DNN workloads. The results demonstrate that SLOTH reduces the storage overhead by an average of 115.9$\times$, while achieving an average fail-slow detection accuracy of 86.77% and a false positive rate (FPR) of 12.11%. More importantly, SLOTH scales effectively across different many-core accelerator architectures, making it practical for large-scale deployments.

翻译：多核加速器对于高性能深度学习至关重要，但其性能受到普遍存在的缓速故障的损害。在片上检测此类故障具有挑战性，因为来自分布式系统的现有方法由于严格的内存限制以及无法跨硬件拓扑跟踪故障而不适用。本文介绍了SLOTH，一个轻量级、硬件感知的框架，用于在多核加速器中实现实用的片上缓速故障检测。SLOTH结合了面向工作负载的轻量级算子级监控插桩、在千字节级内存内运行的实时轨迹压缩，以及一种新颖的拓扑感知排序算法来精确定位故障的根本原因。我们在多种代表性的DNN工作负载上评估了SLOTH。结果表明，SLOTH平均将存储开销降低了115.9倍，同时实现了平均86.77%的缓速故障检测准确率和12.11%的误报率。更重要的是，SLOTH能够有效地在不同多核加速器架构上扩展，使其适用于大规模部署。

0

相关内容

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

专知会员服务

13+阅读 · 2025年2月1日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【CVPR2023】全栈式，基于 GPU 的深度学习加速, 170页ppt

【CVPR2023】全栈式，基于 GPU 的深度学习加速, 170页ppt

专知会员服务

64+阅读 · 2023年7月1日

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

78+阅读 · 2022年10月12日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

MIT发布《人工智能加速器》2021年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

65+阅读 · 2021年9月21日

AI芯片发展现状及前景分析

专知会员服务

66+阅读 · 2021年5月2日

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

专知会员服务

36+阅读 · 2020年3月12日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

专知

18+阅读 · 2018年7月15日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高频高精度横向敏感加速度传感器及其封装应力隔离研究

国家自然科学基金

0+阅读 · 2015年12月31日

高精度片上抖动测量关键技术及电路实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

Acceleration of multi-component multiple-precision arithmetic with branch-free algorithms and SIMD vectorization

Arxiv

0+阅读 · 3月16日

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Arxiv

0+阅读 · 3月4日

A task-based data-flow methodology for programming heterogeneous systems with multiple accelerator APIs

Arxiv

0+阅读 · 2月27日

Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators

Arxiv

0+阅读 · 2月26日

Towards Secure and Efficient DNN Accelerators via Hardware-Software Co-Design

Arxiv

0+阅读 · 2月24日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

The Turbo-Charged Mapper: Fast and Optimal Mapping for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Arxiv

0+阅读 · 2月16日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

专知会员服务

2+阅读 · 今天0:51

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

2+阅读 · 4月29日

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

6+阅读 · 4月29日

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

5+阅读 · 4月29日

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

5+阅读 · 4月29日

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

7+阅读 · 4月29日

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

10+阅读 · 4月29日

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

7+阅读 · 4月29日

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

17+阅读 · 4月29日

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

10+阅读 · 4月29日

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

8+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

11+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

相关VIP内容

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

【ETZH博士论文】多精度硬件加速的架构与微架构解决方案

专知会员服务

13+阅读 · 2025年2月1日

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

【普林斯顿博士论文】深度学习加速器的编译器支持：端到端评估与数据访问优化

专知会员服务

19+阅读 · 2025年1月7日

【CVPR2023】全栈式，基于 GPU 的深度学习加速, 170页ppt

【CVPR2023】全栈式，基于 GPU 的深度学习加速, 170页ppt

专知会员服务

64+阅读 · 2023年7月1日

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

MIT发布《人工智能加速器》2022年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

78+阅读 · 2022年10月12日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

南洋理工北大等首篇《GPU数据中心中深度学习工作负载调度》综述论文，35页pdf全面阐述DL训练与推理GPU调度技术进展

专知会员服务

46+阅读 · 2022年5月27日

MIT发布《人工智能加速器》2021年度综述论文，详解80+类AI芯片性能优劣

专知会员服务

65+阅读 · 2021年9月21日

AI芯片发展现状及前景分析

专知会员服务

66+阅读 · 2021年5月2日

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

【论文推荐】基于机器学习的5G网络异常检测，Machine Learning based Anomaly Detection for 5G Networks

专知会员服务

36+阅读 · 2020年3月12日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知会员服务

218+阅读 · 2019年10月18日

热门VIP内容

开通专知VIP会员享更多权益服务

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

美国力量的新架构：Anduril、Palantir、SpaceX 与美国军工格局的转型

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

相关资讯

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

PyTorch 单机多卡操作总结：分布式DataParallel，混合精度，Horovod)

极市平台

19+阅读 · 2020年10月18日

【边缘智能】边缘计算驱动的深度学习加速技术

【边缘智能】边缘计算驱动的深度学习加速技术

产业智能官

20+阅读 · 2019年2月8日

硬件加速神经网络综述

硬件加速神经网络综述

计算机研究与发展

26+阅读 · 2019年2月1日

最新基于FPGA的深度学习加速器综述论文（附下载）

最新基于FPGA的深度学习加速器综述论文（附下载）

专知

23+阅读 · 2019年1月17日

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

最新49页《深度学习异常检测综述》论文，带你全面了解深度学习异常检测方法

专知

137+阅读 · 2019年1月14日

AI/ML/DNN硬件加速设计怎么入门？

AI/ML/DNN硬件加速设计怎么入门？

StarryHeavensAbove

11+阅读 · 2018年12月4日

【优青论文】深度神经网络压缩与加速综述

【优青论文】深度神经网络压缩与加速综述

计算机研究与发展

17+阅读 · 2018年9月20日

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

斯坦福大学Fall 2018课程-机器学习硬件加速器( 附PPT下载)

专知

18+阅读 · 2018年7月15日

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

陈天奇团队推出开源AI芯片栈VTA，降低芯片设计门槛

AI前线

15+阅读 · 2018年7月13日

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习目标检测模型全面综述：Faster R-CNN、R-FCN和SSD

深度学习世界

10+阅读 · 2017年9月18日

相关论文

Acceleration of multi-component multiple-precision arithmetic with branch-free algorithms and SIMD vectorization

Arxiv

0+阅读 · 3月16日

Joint Hardware-Workload Co-Optimization for In-Memory Computing Accelerators

Arxiv

0+阅读 · 3月4日

A task-based data-flow methodology for programming heterogeneous systems with multiple accelerator APIs

Arxiv

0+阅读 · 2月27日

Bitwise Systolic Array Architecture for Runtime-Reconfigurable Multi-precision Quantized Multiplication on Hardware Accelerators

Arxiv

0+阅读 · 2月26日

Towards Secure and Efficient DNN Accelerators via Hardware-Software Co-Design

Arxiv

0+阅读 · 2月24日

Accelerating Mobile Inference through Fine-Grained CPU-GPU Co-Execution

Arxiv

0+阅读 · 2月18日

The Turbo-Charged Mapper: Fast and Optimal Mapping for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Fast and Fusiest: An Optimal Fusion-Aware Mapper for Accelerator Modeling and Evaluation

Arxiv

0+阅读 · 2月16日

Scope: A Scalable Merged Pipeline Framework for Multi-Chip-Module NN Accelerators

Arxiv

0+阅读 · 2月16日

A Parameterizable Convolution Accelerator for Embedded Deep Learning Applications

Arxiv

0+阅读 · 2月3日

相关基金

面向多核DSP的实时视频并行编码关键技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

高动态环境下的多普勒测速脉冲星导航方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高频高精度横向敏感加速度传感器及其封装应力隔离研究

国家自然科学基金

0+阅读 · 2015年12月31日

高精度片上抖动测量关键技术及电路实现研究

国家自然科学基金

0+阅读 · 2015年12月31日

延迟偏差对高速DAC动态性能的影响及其校正技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

缓存路由器存储架构及其关键技术的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式异构多核系统应用程序自动并行化过程关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向可重构多核处理器系统的分层次自适应优化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

微信扫码咨询专知VIP会员