Traditional database fuzzing techniques primarily focus on syntactic correctness and general SQL structures, leaving critical yet obscure DBMS features, such as system-level modes (e.g., GTID), programmatic constructs (e.g., PROCEDURE), advanced process commands (e.g., KILL), largely underexplored. Although rarely triggered by typical inputs, these features can lead to severe crashes or security issues when executed under edge-case conditions. In this paper, we present FuzzySQL, a novel LLM-powered adaptive fuzzing framework designed to uncover subtle vulnerabilities in DBMS special features. FuzzySQL combines grammar-guided SQL generation with logic-shifting progressive mutation, a novel technique that explores alternative control paths by negating conditions and restructuring execution logic, synthesizing structurally and semantically diverse test cases. To further ensure deeper execution coverage of the back end, FuzzySQL employs a hybrid error repair pipeline that unifies rule-based patching with LLM-driven semantic repair, enabling automatic correction of syntactic and context-sensitive failures. We evaluate FuzzySQL across multiple DBMSs, including MySQL, MariaDB, SQLite, PostgreSQL and Clickhouse, uncovering 64 vulnerabilities, 27 of which are tied to under-tested DBMS special features. As of this writing, 60 cases have been confirmed with 9 assigned CVE identifiers, 31 already fixed by vendors, and additional vulnerabilities scheduled to be patched in upcoming releases. Our results highlight the limitations of conventional fuzzers in semantic feature coverage and demonstrate the potential of LLM-based fuzzing to discover deeply hidden bugs in complex database systems.


翻译:传统的数据库模糊测试技术主要关注语法正确性和通用SQL结构,导致对关键但隐晦的数据库管理系统功能,如系统级模式(例如GTID)、程序化构造(例如PROCEDURE)、高级进程命令(例如KILL)等探索不足。尽管这些功能很少被典型输入触发,但在边界条件下执行时可能导致严重崩溃或安全问题。本文提出FuzzySQL,一种新颖的基于LLM的自适应模糊测试框架,旨在揭示数据库管理系统特殊功能中的细微漏洞。FuzzySQL将语法引导的SQL生成与逻辑移位渐进式突变相结合,该技术通过否定条件和重构执行逻辑来探索替代控制路径,合成结构和语义多样化的测试用例。为进一步确保后端执行覆盖率更深,FuzzySQL采用了混合错误修复流水线,将基于规则的修补与LLM驱动的语义修复统一起来,实现了语法及上下文敏感错误的自动修正。我们在多种数据库管理系统中评估了FuzzySQL,包括MySQL、MariaDB、SQLite、PostgreSQL和Clickhouse,发现了64个漏洞,其中27个与测试不足的数据库管理系统特殊功能相关。截至目前,已有60个案例得到确认,其中9个被分配了CVE标识,31个已被供应商修复,其余漏洞计划在后续版本中修补。我们的结果揭示了传统模糊测试在语义特征覆盖方面的局限性,并展示了基于LLM的模糊测试在发现复杂数据库系统中深层隐藏缺陷方面的潜力。

0
下载
关闭预览

相关内容

数据库( Database )或数据库管理系统( Database management systems )是按照数据结构来组织、存储和管理数据的仓库。目前数据管理不再仅仅是存储和管理数据,而转变成用户所需要的各种数据管理的方式。
大型语言模型(LLMs),附Slides与视频
专知会员服务
71+阅读 · 2024年6月30日
《大型语言模型(LLMs): 训练到推理》全面概述技术细节
LLM驱动的指令遵循:进展,213页ppt
专知会员服务
70+阅读 · 2023年12月30日
《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
15+阅读 · 2022年12月12日
Web渗透测试Fuzz字典分享
黑白之道
21+阅读 · 2019年5月22日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
人脸检测库:libfacedetection
Python程序员
15+阅读 · 2019年3月22日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员