Finding Memory Leaks in C/C++ Programs via Neuro-Symbolic Augmented Static Analysis - 专知论文

会员服务 ·

0

内存 · 分析 · 路径 · 静态分析 · 代码 ·

Finding Memory Leaks in C/C++ Programs via Neuro-Symbolic Augmented Static Analysis

翻译：通过神经符号增强静态分析检测 C/C++ 程序中的内存泄漏

Huihui Huang,Jieke Shi,Bo Wang,Zhou Yang,David Lo

from arxiv, 12 pages

Memory leaks remain prevalent in real-world C/C++ software. Static analyzers such as CodeQL provide scalable program analysis but frequently miss such bugs because they cannot recognize project-specific custom memory-management functions and lack path-sensitive control-flow modeling. We present MemHint, a neuro-symbolic pipeline that addresses both limitations by combining LLMs' semantic understanding of code with Z3-based symbolic reasoning. MemHint parses the target codebase and applies an LLM to classify each function as a memory allocator, deallocator, or neither, producing function summaries that record which argument or return value carries memory ownership, extending the analyzer's built-in knowledge beyond standard primitives such as malloc and free. A Z3-based validation step checks each summary against the function's control-flow graph, discarding those whose claimed memory operation is unreachable on any feasible path. The validated summaries are injected into CodeQL and Infer via their respective extension mechanisms. Z3 path feasibility filtering then eliminates warnings on infeasible paths, and a final LLM-based validation step confirms whether each remaining warning is a genuine bug. On seven real-world C/C++ projects totaling over 3.4M lines of code, MemHint detects 52 unique memory leaks (49 confirmed/fixed, 4 CVEs submitted) at approximately $1.7 per detected bug, compared to 19 by vanilla CodeQL and 3 by vanilla Infer.

翻译：内存泄漏在现实世界的 C/C++ 软件中依然普遍存在。CodeQL 等静态分析器提供了可扩展的程序分析能力，但由于其无法识别项目特定的自定义内存管理函数以及缺乏路径敏感的流程建模，常常漏检此类缺陷。我们提出 MemHint，一个神经符号流水线，通过结合 LLM 对代码的语义理解与基于 Z3 的符号推理，解决了上述两个局限性。MemHint 解析目标代码库，并应用 LLM 将每个函数分类为内存分配器、释放器或两者皆非，生成记录哪个参数或返回值承载内存所有权的函数摘要，从而将分析器的内置知识扩展到标准原语（如 malloc 和 free）之外。一个基于 Z3 的验证步骤将每个摘要与函数的控制流图进行比对，丢弃那些所声称的内存操作在任何可行路径上均不可达的摘要。验证后的摘要通过各自的扩展机制注入到 CodeQL 和 Infer 中。随后，Z3 路径可行性过滤消除不可行路径上的警告，最后一个基于 LLM 的验证步骤确认每个剩余警告是否为真正的缺陷。在七个总代码量超过 340 万行的现实世界 C/C++ 项目上，MemHint 检测出 52 个独特的内存泄漏（其中 49 个已确认/修复，4 个已提交 CVE），每个检测到的缺陷成本约为 1.7 美元，而原始 CodeQL 和原始 Infer 分别仅检测出 19 个和 3 个。

0

相关内容

《基于动态图神经网络的恶意软件检测》

《基于动态图神经网络的恶意软件检测》

专知会员服务

16+阅读 · 1月28日

《网络安全中的机器学习算法：网络防护与攻击检测》最新报告

《网络安全中的机器学习算法：网络防护与攻击检测》最新报告

专知会员服务

21+阅读 · 2025年6月24日

《分析隐私泄露的新工具（NAPLES）》美空军实验室316页研究报告

《分析隐私泄露的新工具（NAPLES）》美空军实验室316页研究报告

专知会员服务

18+阅读 · 2024年5月18日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

48+阅读 · 2023年10月25日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

专知会员服务

68+阅读 · 2020年5月26日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

【技术分享】算法是如何更智能地发现异常商业数据的？

【技术分享】算法是如何更智能地发现异常商业数据的？

AliData

19+阅读 · 2019年8月21日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Finding Memory Leaks in C/C++ Programs via Neuro-Symbolic Augmented Static Analysis

Arxiv

0+阅读 · 4月28日

Stream-CQSA: Avoiding Out-of-Memory in Attention Computation via Flexible Workload Scheduling

Arxiv

0+阅读 · 4月22日

MSWasm: Soundly Enforcing Memory-Safe Execution of Unsafe Code

Arxiv

0+阅读 · 4月16日

NESA: Relational Neuro-Symbolic Static Program Analysis

Arxiv

0+阅读 · 4月13日

Finding Memory Leaks in C/C++ Programs via Neuro-Symbolic Augmented Static Analysis

Arxiv

0+阅读 · 3月28日

QLCoder: A Query Synthesizer For Static Analysis of Security Vulnerabilities

Arxiv

0+阅读 · 3月25日

Walma: Learning to See Memory Corruption in WebAssembly

Arxiv

0+阅读 · 3月25日

Quantifying Memory Cells Vulnerability for DRAM Security

Arxiv

0+阅读 · 3月19日

CodeCureAgent: Automatic Classification and Repair of Static Analysis Warnings

Arxiv

0+阅读 · 2月25日

CMind: An AI Agent for Localizing C Memory Bugs

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《基于动态图神经网络的恶意软件检测》

《基于动态图神经网络的恶意软件检测》

专知会员服务

16+阅读 · 1月28日

《网络安全中的机器学习算法：网络防护与攻击检测》最新报告

《网络安全中的机器学习算法：网络防护与攻击检测》最新报告

专知会员服务

21+阅读 · 2025年6月24日

《分析隐私泄露的新工具（NAPLES）》美空军实验室316页研究报告

《分析隐私泄露的新工具（NAPLES）》美空军实验室316页研究报告

专知会员服务

18+阅读 · 2024年5月18日

《利用 ChatGPT 实现高效事实核查》

《利用 ChatGPT 实现高效事实核查》

专知会员服务

48+阅读 · 2023年10月25日

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

如何检测大模型“幻觉”？剑桥提出SelfCheckGPT: 针对生成型大型语言模型的零资源黑盒子幻觉检测

专知会员服务

44+阅读 · 2023年8月22日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

《分布式多智能体强化学习的编码》加州大学等

《分布式多智能体强化学习的编码》加州大学等

专知会员服务

56+阅读 · 2022年11月2日

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

【CMU博士论文】使用静态和动态图来异常检测，Mining Anomalies using Static and Dynamic Graphs

专知会员服务

68+阅读 · 2020年5月26日

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

【O’Reilly讲座】基于深度学习的异常检测方法用于检测大型数据集的质量：Anomaly detection using deep learning to measure the quality of large datasets

专知会员服务

31+阅读 · 2020年1月11日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

【技术分享】算法是如何更智能地发现异常商业数据的？

【技术分享】算法是如何更智能地发现异常商业数据的？

AliData

19+阅读 · 2019年8月21日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

专知

17+阅读 · 2018年11月15日

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

吴恩达机器学习中文版笔记：异常检测（Anomaly Detection）

大数据文摘

19+阅读 · 2018年4月29日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

【干货】神经机器翻译全流程解析，one-shot 和 zero-shot 学习成亮点

新智元

10+阅读 · 2017年4月2日

相关论文

Finding Memory Leaks in C/C++ Programs via Neuro-Symbolic Augmented Static Analysis

Arxiv

0+阅读 · 4月28日

Stream-CQSA: Avoiding Out-of-Memory in Attention Computation via Flexible Workload Scheduling

Arxiv

0+阅读 · 4月22日

MSWasm: Soundly Enforcing Memory-Safe Execution of Unsafe Code

Arxiv

0+阅读 · 4月16日

NESA: Relational Neuro-Symbolic Static Program Analysis

Arxiv

0+阅读 · 4月13日

Finding Memory Leaks in C/C++ Programs via Neuro-Symbolic Augmented Static Analysis

Arxiv

0+阅读 · 3月28日

QLCoder: A Query Synthesizer For Static Analysis of Security Vulnerabilities

Arxiv

0+阅读 · 3月25日

Walma: Learning to See Memory Corruption in WebAssembly

Arxiv

0+阅读 · 3月25日

Quantifying Memory Cells Vulnerability for DRAM Security

Arxiv

0+阅读 · 3月19日

CodeCureAgent: Automatic Classification and Repair of Static Analysis Warnings

Arxiv

0+阅读 · 2月25日

CMind: An AI Agent for Localizing C Memory Bugs

Arxiv

0+阅读 · 2月20日

相关基金

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于编译的PCM内存损耗均衡方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向二进制程序的静态结构化符号执行与动态组合方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

嵌入式存储器容错设计关键技术研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于免疫的Rootkit隐遁攻击动态内存取证方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员