While machine learning (ML) software necessitates effective quality assurance, ML engineers still encounter silent semantic faults, such as imbalanced datasets, that degrade prediction performance without apparent symptoms. These faults are typically detected after expensive training cycles, causing significant resource waste. We propose a data-informed static analysis technique to detect silent semantic faults in ML scripts that use the popular random forest classifier. Our approach extracts ML pipelines into directed acyclic graphs and evaluates them against formalized API contracts to detect structural, data, and hyperparameter faults. Our analysis uses aggregated data properties, enabling fault detection even when datasets are inaccessible due to confidentiality restrictions. We implemented this technique in an open-source tool, dille, and evaluated it on real-world Kaggle notebooks that use the random forest classifier. Our results demonstrate that the tool identifies relevant semantic faults with 91% precision and sub-second runtime overhead, making it suitable for integration into integrated development environments, agentic workflows, and continuous integration pipelines. Our empirical study reveals that 12% to 18% of existing ML notebooks that use the random forest classifier are affected by silent semantic faults, highlighting the immediate practical utility of data-informed static analysis in reducing the burden of ML debugging.


翻译:尽管机器学习软件亟需有效的质量保障,但ML工程师仍会遭遇静默语义故障(如数据集不平衡等),这类故障会在无明显症状的情况下降低预测性能。这些故障通常需要在昂贵的训练周期后才能被发现,造成严重的资源浪费。我们提出一种数据信息静态分析技术,用于检测使用流行随机森林分类器的ML脚本中的静默语义故障。该方法将ML流水线提取为有向无环图,并依据形式化的API契约对其进行评估,以检测结构、数据和超参数故障。分析过程中使用聚合数据属性,即使因保密限制无法访问数据集,仍能实现故障检测。我们将该技术实现为开源工具dille,并在使用随机森林分类器的真实Kaggle笔记本上进行了评估。结果表明,该工具能以91%的精确率和亚秒级运行时开销识别相关语义故障,适合集成到集成开发环境、智能体工作流和持续集成流水线中。我们的实证研究发现,12%至18%使用随机森林分类器的现有ML笔记本受到静默语义故障影响,这凸显了数据信息静态分析在减轻ML调试负担方面的即时效用。

0
下载
关闭预览

相关内容

不平衡数据学习的全面综述
专知会员服务
44+阅读 · 2025年2月15日
【ETH博士论文】标签和数据稀缺下的故障诊断,130页pdf
专知会员服务
69+阅读 · 2023年7月28日
专知会员服务
21+阅读 · 2021年8月9日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
使用随机森林分类器预测森林火灾规模
论智
13+阅读 · 2018年5月15日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
10+阅读 · 6月15日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员