Analyzing non-compilable C/C++ submodules without a resolved build environment remains a critical bottleneck for industrial software evolution. Traditional static analysis tools often fail in these scenarios due to their reliance on successful compilation, while Large Language Models (LLMs) lack the structural context necessary to reason about complex program logic. We introduce ATLAS, a Python-based CLI that generates unified multi-view representations for large-scale C/C++ projects with high accuracy, achieving success rates up to 96.80% for CFGs and 91.38% for DFGs. ATLAS is characterized by: (i) inter-procedural, type-aware analysis across function boundaries; (ii) support for both full and partial analysis of non-compilable projects; (iii) graph optimizations such as variable collapsing and node blacklisting; and (iv) synchronized multi-view graphs that align syntax, execution paths, and data-flow logic. Evaluating ATLAS with DeepSeek V3.2 for automated test generation demonstrates a 34.71% increase in line coverage and 32.66% in branch coverage, matching or exceeding the performance of the symbolic execution tool KLEE on complex projects. With polynomial scalability, ATLAS provides a robust infrastructure for generating the information-dense datasets required by next-generation, graph-aware ML4SE models. Video demonstration: https://youtu.be/QGuJZhj9CTA Tool github repository: https://github.com/jaid-monwar/ATLAS-multi-view-code-representation-tool.git


翻译:在未解析构建环境的情况下分析不可编译的C/C++子模块,仍是工业软件演进的关键瓶颈。传统静态分析工具因依赖成功编译而在这些场景中经常失效,而大型语言模型(LLMs)缺乏推理复杂程序逻辑所需的结构化上下文。本文提出ATLAS,一种基于Python的命令行工具,能够以高精度为大规模C/C++项目生成统一的多视图表示,在控制流图(CFG)和数据流图(DFG)生成上分别达到96.80%和91.38%的成功率。ATLAS具有以下特征:(一)跨函数边界的跨过程、类型感知分析;(二)支持对不可编译项目进行完整或部分分析;(三)变量折叠与节点黑名单等图优化技术;(四)对齐语法、执行路径与数据流逻辑的同步多视图图。使用DeepSeek V3.2对ATLAS进行自动化测试生成的评估表明,其行覆盖率提升34.71%,分支覆盖率提升32.66%,在复杂项目上达到或超越了符号执行工具KLEE的性能。ATLAS具备多项式级可扩展性,为生成下一代图感知ML4SE模型所需的信息密集型数据集提供了鲁棒的基础设施。视频演示:https://youtu.be/QGuJZhj9CTA 工具GitHub仓库:https://github.com/jaid-monwar/ATLAS-multi-view-code-representation-tool.git

0
下载
关闭预览

相关内容

【ETZH博士论文】语言模型编程
专知会员服务
25+阅读 · 2025年6月14日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
GitHub获赞过千:PyTorch 自然语言处理项目Top 5
新智元
12+阅读 · 2018年7月10日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
自然语言处理工具包spaCy介绍
AINLP
18+阅读 · 2016年11月14日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员