Data-driven Test Generation for Fuzzing AI Compiler

Artificial Intelligence (AI) compilers are critical for efficiently deploying AI models across diverse hardware platforms. However, they remain prone to bugs that can compromise both compiler reliability and model correctness. Thus, ensuring the quality of AI compilers is crucial. In this work, we present a unified data-driven testing framework that systematically addresses stage-specific challenges in AI compilers. Specifically, OPERA migrates tests for AI libraries to test various operator conversion logic in the model loading stage. OATest synthesizes diverse optimization-aware computational graphs for testing high-level optimizations. HARMONY generates and mutates diverse low-level IR seeds to generate hardware-optimization-aware tests for testing low-level optimizations. Together, these techniques provide a comprehensive, stage-aware framework that enhances testing coverage and effectiveness, detecting 266 previously unknown bugs in four widely used AI compilers.

翻译：人工智能（AI）编译器对于在不同硬件平台上高效部署AI模型至关重要。然而，它们仍易存在缺陷，可能同时影响编译器的可靠性与模型的正确性。因此，确保AI编译器的质量极为关键。本研究提出了一种统一的数据驱动测试框架，系统性地应对AI编译器各阶段特有的挑战。具体而言，OPERA通过迁移AI库的测试用例，以检验模型加载阶段中各类算子转换逻辑；OATest合成多样化的优化感知计算图，用于测试高层优化过程；HARMONY则通过生成并变异多样化的底层中间表示种子，产生硬件优化感知的测试用例，以验证底层优化阶段。这些技术共同构成一个覆盖全面、阶段感知的测试框架，显著提升了测试覆盖范围与有效性，在四种广泛使用的AI编译器中已检测出266个先前未知的缺陷。

相关内容

关注 7109

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

大语言模型驱动的最优化方法：基于生成式人工智能的建模、求解与验证

专知会员服务

38+阅读 · 1月25日

AI生成代码缺陷综述

专知会员服务

17+阅读 · 2025年12月8日

【MIT博士论文】从数据到模型，再回到数据：构建可预测且可靠的机器学习系统”

专知会员服务

23+阅读 · 2025年6月19日

【AI4Science】利用大型语言模型变革科学：关于人工智能辅助科学发现、实验、内容生成与评估的调研

专知会员服务

33+阅读 · 2025年2月10日