Hyperscaler reports of silent data corruptions (SDCs), presumed to be caused by silicon manufacturing defects, have motivated the development of functional tests for detecting defective CPUs. We present ITHICA, an approach for automatically generating functional tests for defect-induced errors from arbitrary programs by inserting intra-thread, instruction-level error checks, primarily leveraging instruction duplication and output comparison. Our key insight is that the most pernicious defects cause inconsistent errors: two executions of the same instruction within the same thread, given the same inputs, can produce different architectural outputs depending on the execution context in which they run. By exploiting this insight, ITHICA enables arbitrary programs to serve as tests and identifies affected instructions upon error detections. We use ITHICA to transform industrial hyperscaler test programs (our baseline), datacenter workloads, and common libraries into functional tests, and evaluate them on over 3,000 CPU servers. ITHICA error checks detect 39% more defective servers than native checks within the ITHICA tests derived from our baseline programs, and enable novel findings on defect behavior that challenge conclusions drawn by prior hyperscaler fleet studies.


翻译:超大规模服务器中报告的静默数据损坏(SDC)——据推测由硅制造缺陷引起——推动了用于检测有缺陷CPU的功能测试的开发。我们提出ITHICA方法,该方法通过插入线程内指令级错误检查(主要利用指令复制与输出比较),能够从任意程序中自动生成面向缺陷诱导错误的功能测试。我们的核心洞察在于:最具危害性的缺陷会导致不一致错误——即同一线程内相同指令在给定相同输入的情况下,可能因执行上下文不同而产生不同的架构输出。基于这一发现,ITHICA使任意程序均可作为测试用例,并在检测到错误时识别受影响的指令。我们使用ITHICA将工业级超大规模服务器测试程序(我们的基线)、数据中心负载及通用库转化为功能测试,并在超过3000台CPU服务器上进行评估。在从基线程序衍生的ITHICA测试中,ITHICA错误检查检测到的缺陷服务器数量比原生检查多39%,且揭示了有关缺陷行为的新发现,这些发现挑战了先前超大规模服务器集群研究的结论。

0
下载
关闭预览

相关内容

服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
「 工业缺陷检测深度学习方法」最新2022研究综述
专知会员服务
96+阅读 · 2022年7月2日
基于深度神经网络的图像缺损修复方法综述
专知会员服务
26+阅读 · 2021年12月18日
专知会员服务
14+阅读 · 2021年9月21日
专知会员服务
10+阅读 · 2021年1月31日
基于深度学习的表面缺陷检测方法综述
专知会员服务
95+阅读 · 2020年5月31日
异常检测(Anomaly Detection)综述
极市平台
20+阅读 · 2020年10月24日
【机器视觉】表面缺陷检测:机器视觉检测技术
产业智能官
25+阅读 · 2018年5月30日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员