Matching binary to source code and vice versa has various applications in different fields, such as computer security, software engineering, and reverse engineering. Even though there exist methods that try to match source code with binary code to accelerate the reverse engineering process, most of them are designed to focus on one programming language. However, in real life, programs are developed using different programming languages depending on their requirements. Thus, cross-language binary-to-source code matching has recently gained more attention. Nonetheless, the existing approaches still struggle to have precise predictions due to the inherent difficulties when the problem of matching binary code and source code needs to be addressed across programming languages. In this paper, we address the problem of cross-language binary source code matching. We propose GraphBinMatch, an approach based on a graph neural network that learns the similarity between binary and source codes. We evaluate GraphBinMatch on several tasks, such as cross-language binary-to-source code matching and cross-language source-to-source matching. We also evaluate our approach performance on single-language binary-to-source code matching. Experimental results show that GraphBinMatch outperforms state-of-the-art significantly, with improvements as high as 15% over the F1 score.


翻译:摘要:将二进制代码与源代码进行匹配,反之亦然,在计算机安全、软件工程和逆向工程等多个领域具有广泛应用。尽管已有方法尝试将源代码与二进制代码匹配以加速逆向工程过程,但多数方法仅针对单一编程语言设计。然而,在实际应用中,程序会根据需求采用不同的编程语言开发,因此跨语言的二进制与源代码匹配问题近年来受到更多关注。尽管如此,现有方法在面对跨编程语言的二进制代码与源代码匹配时,仍因固有困难而难以实现精确预测。本文聚焦于跨语言二进制源代码匹配问题,提出GraphBinMatch方法——一种基于图神经网络的技术,用于学习二进制代码与源代码之间的相似性。我们在多个任务上评估了GraphBinMatch,包括跨语言二进制-源代码匹配和跨语言源代码-源代码匹配,同时验证了其在单语言二进制-源代码匹配中的性能。实验结果表明,GraphBinMatch显著优于现有最先进方法,F1分数提升高达15%。

1
下载
关闭预览

相关内容

【SIGIR2020】学习词项区分性,Learning Term Discrimination
专知会员服务
16+阅读 · 2020年4月28日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
代码重构:面向单元测试
阿里技术
0+阅读 · 2022年7月29日
灾难性遗忘问题新视角:迁移-干扰平衡
CreateAMind
17+阅读 · 2019年7月6日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Capsule Networks解析
机器学习研究会
11+阅读 · 2017年11月12日
【论文】图上的表示学习综述
机器学习研究会
15+阅读 · 2017年9月24日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
58+阅读 · 2021年5月3日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
38+阅读 · 2020年3月10日
Arxiv
13+阅读 · 2019年11月14日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
相关论文
Arxiv
0+阅读 · 2023年5月29日
Arxiv
0+阅读 · 2023年5月26日
Arxiv
58+阅读 · 2021年5月3日
Arxiv
27+阅读 · 2020年6月19日
Arxiv
38+阅读 · 2020年3月10日
Arxiv
13+阅读 · 2019年11月14日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2010年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
国家自然科学基金
2+阅读 · 2008年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员