The recovery of types from stripped binaries is a key to exact decompilation, yet its practical realization suffers. For composite structures in particular, both layout and semantic fidelity are required to enable end-to-end reconstruction. Many existing approaches either synthesize layouts or infer names post-hoc, which weakens downstream usability. This is further aggravated by an excessive runtime overhead that is especially prohibitive in automated environments. We present XTRIDE, an improved n-gram-based approach that focuses on practicality: highly optimized throughput and actionable confidence scores allow for deployment in automated pipelines. When compared to the state of the art in struct recovery, our method achieves comparable performance while being between 70 and 2300 times faster. As our inference is grounded in real-world types, we achieve the highest ratio of fully-correct struct layouts. With an optimized training regimen, our model outperforms the current state of the art on the DIRT dataset by 5.09 percentage points, achieving 90.15% type inference accuracy overall. Furthermore, we show that n-gram-based type prediction generalizes to function signature recovery: conducting a case study on embedded firmware, we show that this efficient approach to function similarity can assist in typical reverse engineering tasks.


翻译:从剥离的二进制文件中恢复类型是实现精确反编译的关键,然而其实用化实现仍面临挑战。特别是对于复合结构,需要同时满足布局正确性和语义保真度才能实现端到端重构。现有方法大多仅合成布局或在事后推断名称,这削弱了下游可用性。过高的运行时开销进一步加剧了该问题,在自动化环境中尤为严重。我们提出XTRIDE,一种改进的基于n-gram的方法,聚焦实用性:高度优化的吞吐量和可操作的置信度评分使其能够部署在自动化流水线中。与当前最先进的结构恢复方法相比,我们的方法在实现相当性能的同时,速度提升了70至2300倍。由于我们的推断基于真实世界类型,我们实现了最高比例的完全正确结构布局。通过优化训练方案,我们的模型在DIRT数据集上以5.09个百分点的优势超越当前最优方法,总体类型推断准确率达到90.15%。此外,我们证明基于n-gram的类型预测可推广至函数签名恢复:通过对嵌入式固件的案例研究,我们展示这种高效的函数相似性方法能够辅助典型的逆向工程任务。

0
下载
关闭预览

相关内容

中科大等最新《基于扩散模型的图像恢复和增强》综述
专知会员服务
37+阅读 · 2023年8月22日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
8+阅读 · 4月29日
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
19+阅读 · 4月29日
智能体化世界建模:基础、能力、规律及展望
专知会员服务
11+阅读 · 4月28日
相关VIP内容
中科大等最新《基于扩散模型的图像恢复和增强》综述
专知会员服务
37+阅读 · 2023年8月22日
【Google】高效Transformer综述,Efficient Transformers: A Survey
专知会员服务
66+阅读 · 2022年3月17日
相关资讯
【AAAI2021】对比聚类,Contrastive Clustering
专知
26+阅读 · 2021年1月30日
Deep Image Prior——图像恢复入门
中国人工智能学会
15+阅读 · 2019年2月16日
用模型不确定性理解模型
论智
11+阅读 · 2018年9月5日
文本聚类:从非结构化数据快速获取见解
Datartisan数据工匠
15+阅读 · 2017年10月12日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员