Binary Function Similarity (BFS), the problem of determining whether two binary functions originate from the same source code, has been extensively studied in recent research across security, software engineering, and machine learning communities. This interest arises from its central role in developing vulnerability detection systems, copyright infringement analysis, and malware phylogeny tools. Nearly all binary function similarity systems embed assembly functions into real-valued vectors, where similar functions map to points that lie close to each other in the metric space. These embeddings enable function search: a query function is embedded and compared against a database of candidate embeddings to retrieve the most similar matches. Despite their effectiveness, such systems rely on bi-encoder architectures that embed functions independently, limiting their ability to capture cross-function relationships and similarities. To address this limitation, we introduce ReSIM, a novel and enhanced function search system that complements embedding-based search with a neural re-ranker. Unlike traditional embedding models, our reranking module jointly processes query-candidate pairs to compute ranking scores based on their mutual representation, allowing for more accurate similarity assessment. By re-ranking the top results from embedding-based retrieval, ReSIM leverages fine-grained relation information that bi-encoders cannot capture. We evaluate ReSIM across seven embedding models on two benchmark datasets, demonstrating consistent improvements in search effectiveness, with average gains of 21.7% in terms of nDCG and 27.8% in terms of Recall.


翻译:二进制函数相似性(BFS)旨在判定两个二进制函数是否源自同一源代码,近年来在安全、软件工程和机器学习领域得到了广泛研究。这一问题的核心价值在于其在漏洞检测系统开发、版权侵权分析和恶意软件谱系构建中的关键作用。几乎所有的二进制函数相似性系统都将汇编函数嵌入为实值向量,使得相似函数在度量空间中映射为彼此接近的点。此类嵌入支持函数搜索:查询函数被嵌入后,与候选嵌入数据库进行比较以检索最相似的匹配结果。尽管现有系统效果显著,但它们普遍依赖双编码器架构独立嵌入函数,限制了其捕捉跨函数关系与相似性的能力。为克服这一局限,我们提出了ReSIM——一种新颖且增强的函数搜索系统,通过神经重排序模块对基于嵌入的搜索进行补充。与传统嵌入模型不同,我们的重排序模块联合处理查询-候选对,基于其互表示计算排序分数,从而实现更精确的相似性评估。通过对基于嵌入检索的顶部结果进行重排序,ReSIM能够利用双编码器无法捕捉的细粒度关系信息。我们在两个基准数据集上对七种嵌入模型进行了ReSIM评估,结果表明其在搜索效能上实现了持续提升,nDCG平均提升21.7%,召回率平均提升27.8%。

0
下载
关闭预览

相关内容

【博士论文】大数据相似查询关键技术研究
专知会员服务
24+阅读 · 2021年12月2日
专知会员服务
17+阅读 · 2021年5月13日
浅析Faiss在推荐系统中的应用及原理
凡人机器学习
11+阅读 · 2020年5月5日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
6+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
7+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
11+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
专知会员服务
10+阅读 · 5月30日
相关资讯
浅析Faiss在推荐系统中的应用及原理
凡人机器学习
11+阅读 · 2020年5月5日
计算文本相似度常用的四种方法
论智
33+阅读 · 2018年5月18日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
python文本相似度计算
北京思腾合力科技有限公司
24+阅读 · 2017年11月6日
并行算法演进,从MapReduce到MPI
凡人机器学习
10+阅读 · 2017年11月5日
各种相似性度量及Python实现
机器学习算法与Python学习
11+阅读 · 2017年7月6日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员