White-Basilisk: A Hybrid Model for Code Vulnerability Detection - 专知论文

会员服务 ·

0

White-Basilisk: A Hybrid Model for Code Vulnerability Detection

翻译：White-Basilisk：面向代码漏洞检测的混合模型

Ioannis Lamprou,Alexander Shevtsov,Ioannis Arapakis,Sotiris Ioannidis

The proliferation of software vulnerabilities presents a significant challenge to cybersecurity, necessitating more effective detection methodologies. We introduce White-Basilisk, a novel approach to vulnerability detection that demonstrates superior performance while challenging prevailing assumptions in AI model scaling. Utilizing an innovative architecture that integrates Mamba layers, linear self-attention, and a Mixture of Experts framework, White-Basilisk achieves state-of-the-art results in vulnerability detection tasks with a parameter count of only 200M. The model's capacity to process sequences of unprecedented length enables comprehensive analysis of extensive codebases in a single pass, surpassing the context limitations of current Large Language Models (LLMs). White-Basilisk exhibits robust performance on imbalanced, real-world datasets, while maintaining computational efficiency that facilitates deployment across diverse organizational scales. This research not only establishes new benchmarks in code security but also provides empirical evidence that compact, efficiently designed models can outperform larger counterparts in specialized tasks, potentially redefining optimization strategies in AI development for domain-specific applications.

翻译：软件漏洞的激增对网络安全构成了重大挑战，亟需更有效的检测方法。本文提出White-Basilisk，一种新型漏洞检测方法，它在展现卓越性能的同时，挑战了AI模型扩展领域的既有假设。通过集成Mamba层、线性自注意力和混合专家（MoE）框架的创新架构，White-Basilisk在参数总量仅为2亿的情况下，在漏洞检测任务中取得了最先进的成果。该模型处理超长序列的能力使其能单次全面分析大规模代码库，突破了当前大型语言模型（LLM）的上下文长度限制。White-Basilisk在不平衡的真实世界数据集上展现出稳健性能，同时维持了计算效率，便于在各类组织规模中部署。本研究不仅为代码安全确立了新基准，更提供了经验证据，表明在特定任务中，紧凑且高效设计的模型能够超越规模更大的同类模型，这有望重新定义面向领域特定应用的AI开发优化策略。

0

相关内容

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

专知会员服务

11+阅读 · 3月16日

《大模型安全实践（2024）》白皮书，42页pdf

《大模型安全实践（2024）》白皮书，42页pdf

专知会员服务

94+阅读 · 2024年7月10日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

29+阅读 · 2023年5月15日

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

专知会员服务

30+阅读 · 2023年5月1日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

专知会员服务

29+阅读 · 2022年6月16日

可靠深度异常检测与分布外检测，100页ppt，Google Balaji Lakshminarayanan讲解

可靠深度异常检测与分布外检测，100页ppt，Google Balaji Lakshminarayanan讲解

专知会员服务

47+阅读 · 2022年6月2日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

67+阅读 · 2022年4月14日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

数据派THU

16+阅读 · 2019年4月11日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

151+阅读 · 2019年4月7日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

混合无线传感器网络的表面覆盖洞修补问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

MalGEN: A Testbed for Modeling and Evaluating Malware Behaviors

Arxiv

0+阅读 · 4月30日

VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection

Arxiv

0+阅读 · 4月29日

SDLLMFuzz: Dynamic-static LLM-assisted greybox fuzzing for structured input programs

Arxiv

0+阅读 · 4月20日

HYDRA: A Hybrid Heuristic-Guided Deep Representation Architecture for Predicting Latent Zero-Day Vulnerabilities in Patched Functions

Arxiv

0+阅读 · 4月13日

VulGD: A LLM-Powered Dynamic Open-Access Vulnerability Graph Database

Arxiv

0+阅读 · 4月8日

Triggering and Detecting Exploitable Library Vulnerability from the Client by Directed Greybox Fuzzing

Arxiv

0+阅读 · 4月5日

RuleForge: Automated Generation and Validation for Web Vulnerability Detection at Scale

Arxiv

0+阅读 · 4月2日

VulnScout-C: A Lightweight Transformer for C Code Vulnerability Detection

Arxiv

0+阅读 · 3月30日

Toward Scalable Automated Repository-Level Datasets for Software Vulnerability Detection

Arxiv

0+阅读 · 3月18日

MulCovFuzz: A Multi-Component Coverage-Guided Greybox Fuzzer for 5G Protocol Testing

Arxiv

0+阅读 · 2月25日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

4+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

6+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

《基于深度学习的软件定义网络模型用于物联网网络威胁检测》

专知会员服务

11+阅读 · 3月16日

《大模型安全实践（2024）》白皮书，42页pdf

《大模型安全实践（2024）》白皮书，42页pdf

专知会员服务

94+阅读 · 2024年7月10日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

29+阅读 · 2023年5月15日

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

【ICML2023】BLIP-2:基于冻结图像编码器和大型语言模型的Bootstrapping语言-图像预训练

专知会员服务

30+阅读 · 2023年5月1日

【CVPR2023】基于强化学习的黑盒模型反演攻击

【CVPR2023】基于强化学习的黑盒模型反演攻击

专知会员服务

24+阅读 · 2023年4月12日

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

AlphaFold教程与最新蛋白质结构预测进展，附视频与Slides

专知会员服务

29+阅读 · 2022年6月16日

可靠深度异常检测与分布外检测，100页ppt，Google Balaji Lakshminarayanan讲解

可靠深度异常检测与分布外检测，100页ppt，Google Balaji Lakshminarayanan讲解

专知会员服务

47+阅读 · 2022年6月2日

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

【书籍】网络安全《移动目标防御 II：博弈论和对抗性建模的应用》210页，Moving Target Defense II：Application of Game Theory and Adversarial Modeling

专知会员服务

67+阅读 · 2022年4月14日

黑盒机器学习模型的成员推断攻击研究

专知会员服务

23+阅读 · 2021年8月22日

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

【O'Reilly TensorFlow Conference 2019】恶意软件检测（Generative malware outbreak detection），Sean Park | Trend Micro

专知会员服务

15+阅读 · 2019年11月13日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

【蜂群无人机控制关键技术】《基于深度学习进行无线电信号和协议分类以自动发现波形漏洞》2022最新102页报告，美国空军研究实验室

专知

69+阅读 · 2022年12月3日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

独家 | 机器学习解释模型：黑盒VS白盒（附资料链接）

数据派THU

16+阅读 · 2019年4月11日

FaceNiff工具 - 适用于黑客的Android应用程序

FaceNiff工具 - 适用于黑客的Android应用程序

黑白之道

151+阅读 · 2019年4月7日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

【干货|如何打开黑盒子模型？】41页最新机器学习可解释模型综述论文，143篇参考文献，2300次下载

专知

25+阅读 · 2018年11月25日

相关论文

MalGEN: A Testbed for Modeling and Evaluating Malware Behaviors

Arxiv

0+阅读 · 4月30日

VulStyle: A Multi-Modal Pre-Training for Code Stylometry-Augmented Vulnerability Detection

Arxiv

0+阅读 · 4月29日

SDLLMFuzz: Dynamic-static LLM-assisted greybox fuzzing for structured input programs

Arxiv

0+阅读 · 4月20日

HYDRA: A Hybrid Heuristic-Guided Deep Representation Architecture for Predicting Latent Zero-Day Vulnerabilities in Patched Functions

Arxiv

0+阅读 · 4月13日

VulGD: A LLM-Powered Dynamic Open-Access Vulnerability Graph Database

Arxiv

0+阅读 · 4月8日

Triggering and Detecting Exploitable Library Vulnerability from the Client by Directed Greybox Fuzzing

Arxiv

0+阅读 · 4月5日

RuleForge: Automated Generation and Validation for Web Vulnerability Detection at Scale

Arxiv

0+阅读 · 4月2日

VulnScout-C: A Lightweight Transformer for C Code Vulnerability Detection

Arxiv

0+阅读 · 3月30日

Toward Scalable Automated Repository-Level Datasets for Software Vulnerability Detection

Arxiv

0+阅读 · 3月18日

MulCovFuzz: A Multi-Component Coverage-Guided Greybox Fuzzer for 5G Protocol Testing

Arxiv

0+阅读 · 2月25日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

混合无线传感器网络的表面覆盖洞修补问题研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于软件定义无线网络的虚拟多径攻击检测与防御技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员