SastBench：一种用于测试自动化SAST分类的基准 (SastBench: A Benchmark for Testing Agentic SAST Triage) - 专知论文

会员服务 ·

0

基准 · 工具 · 自动化 · 测试自动化 · 商业 ·

SastBench: A Benchmark for Testing Agentic SAST Triage

翻译：SastBench：一种用于测试自动化SAST分类的基准

Jake Feiglin,Guy Dar

SAST (Static Application Security Testing) tools are among the most widely used techniques in defensive cybersecurity, employed by commercial and non-commercial organizations to identify potential vulnerabilities in software. Despite their great utility, they generate numerous false positives, requiring costly manual filtering (aka triage). While LLM-powered agents show promise for automating cybersecurity tasks, existing benchmarks fail to emulate real-world SAST finding distributions. We introduce SastBench, a benchmark for evaluating SAST triage agents that combines real CVEs as true positives with filtered SAST tool findings as approximate false positives. SastBench features an agent-agnostic design. We evaluate different agents on the benchmark and present a comparative analysis of their performance, provide a detailed analysis of the dataset, and discuss the implications for future development.

翻译：SAST（静态应用程序安全测试）工具是防御性网络安全领域应用最广泛的技术之一，被商业和非商业组织用于识别软件中的潜在漏洞。尽管这些工具极具实用性，但会产生大量误报，需要耗费大量人力进行手动筛选（即分类）。虽然基于大语言模型的智能体在自动化网络安全任务方面展现出潜力，但现有基准无法模拟真实世界SAST发现结果的分布特征。本文提出SastBench——一个用于评估SAST分类智能体的基准，该基准将真实CVE作为真阳性样本，并将经过筛选的SAST工具检测结果作为近似假阳性样本。SastBench采用与智能体无关的设计架构。我们在该基准上评估了不同智能体的性能，提供了详尽的性能对比分析，对数据集进行了深入剖析，并探讨了对未来发展的启示。

0

相关内容

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

专知会员服务

23+阅读 · 2024年6月3日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

28+阅读 · 2023年5月22日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

28+阅读 · 2023年5月15日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

专知会员服务

19+阅读 · 2022年5月6日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

188+阅读 · 2022年4月15日

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

专知会员服务

39+阅读 · 2021年4月3日

【2020新书】使用SAS Studio学习数据科学，这是一个快速入门指南

【2020新书】使用SAS Studio学习数据科学，这是一个快速入门指南

专知会员服务

17+阅读 · 2020年10月2日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

使用SSD进行目标检测：目标检测第二篇

使用SSD进行目标检测：目标检测第二篇

专知

29+阅读 · 2018年1月28日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

SysFuSS: System-Level Firmware Fuzzing with Selective Symbolic Execution

Arxiv

0+阅读 · 2月2日

Sifting the Noise: A Comparative Study of LLM Agents in Vulnerability False Positive Filtering

Arxiv

0+阅读 · 1月30日

AgenticSCR: An Autonomous Agentic Secure Code Review for Immature Vulnerabilities Detection

Arxiv

0+阅读 · 1月27日

SAGA: Detecting Security Vulnerabilities Using Static Aspect Analysis

Arxiv

0+阅读 · 1月21日

SafePlanner: Testing Safety of the Automated Driving System Plan Model

Arxiv

0+阅读 · 1月14日

YRC-Bench: A Benchmark for Learning to Coordinate with Experts

Arxiv

0+阅读 · 1月13日

PenForge: On-the-Fly Expert Agent Construction for Automated Penetration Testing

Arxiv

0+阅读 · 1月11日

StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection

Arxiv

0+阅读 · 1月9日

STELLAR: A Search-Based Testing Framework for Large Language Model Applications

Arxiv

0+阅读 · 1月5日

VIP会员

文章信息

相关主题

测试自动化

相关VIP内容

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

《动态网络环境下基于软件定义网络的分布式侦察欺骗》最新190页

专知会员服务

23+阅读 · 2024年6月3日

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

如何评估具身智能？斯坦福李飞飞等发布《BEHAVIOR-1K: 以人为中心、具身化AI基准测试，含1000种日常活动和真实模拟》

专知会员服务

62+阅读 · 2024年3月15日

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

《仅有包头的网络流量异常检测和分类的实证调查》美国陆军研究实验室2023最新5页报告

专知会员服务

28+阅读 · 2023年5月22日

《基于高斯混合流和入包的异常检测》2023最新57页论文

《基于高斯混合流和入包的异常检测》2023最新57页论文

专知会员服务

28+阅读 · 2023年5月15日

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

复杂系统如何检测异常？北卡UNCC等最新《复杂分布式系统中基于图的深度学习异常检测方法综述》，阐述最新图异常检测技术进展

专知会员服务

58+阅读 · 2022年6月12日

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

最新！《信息技术云计算虚拟机资源管理平台通用测试方法》国家标准（征求意见稿）

专知会员服务

19+阅读 · 2022年5月6日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

188+阅读 · 2022年4月15日

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

最新「深度学习人脸检测」综述论文，17页pdf概述50种人脸检测SOTA方法

专知会员服务

39+阅读 · 2021年4月3日

【2020新书】使用SAS Studio学习数据科学，这是一个快速入门指南

【2020新书】使用SAS Studio学习数据科学，这是一个快速入门指南

专知会员服务

17+阅读 · 2020年10月2日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知会员服务

80+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

90+阅读 · 2022年4月17日

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

西北工业大学发布最新遥感图像目标检测综述论文和Benchmark，带你全面了解遥感图像检测方法

专知

23+阅读 · 2019年9月5日

Xsser 一款自动检测XSS漏洞工具

Xsser 一款自动检测XSS漏洞工具

黑白之道

14+阅读 · 2019年8月26日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

AnDOSid - 适用于黑客的Android应用程序

AnDOSid - 适用于黑客的Android应用程序

黑白之道

11+阅读 · 2019年3月14日

NetworkMiner - 网络取证分析工具

NetworkMiner - 网络取证分析工具

黑白之道

16+阅读 · 2018年6月29日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

使用SSD进行目标检测：目标检测第二篇

使用SSD进行目标检测：目标检测第二篇

专知

29+阅读 · 2018年1月28日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

SAGE: Benchmarking and Improving Retrieval for Deep Research Agents

Arxiv

0+阅读 · 2月5日

SysFuSS: System-Level Firmware Fuzzing with Selective Symbolic Execution

Arxiv

0+阅读 · 2月2日

Sifting the Noise: A Comparative Study of LLM Agents in Vulnerability False Positive Filtering

Arxiv

0+阅读 · 1月30日

AgenticSCR: An Autonomous Agentic Secure Code Review for Immature Vulnerabilities Detection

Arxiv

0+阅读 · 1月27日

SAGA: Detecting Security Vulnerabilities Using Static Aspect Analysis

Arxiv

0+阅读 · 1月21日

SafePlanner: Testing Safety of the Automated Driving System Plan Model

Arxiv

0+阅读 · 1月14日

YRC-Bench: A Benchmark for Learning to Coordinate with Experts

Arxiv

0+阅读 · 1月13日

PenForge: On-the-Fly Expert Agent Construction for Automated Penetration Testing

Arxiv

0+阅读 · 1月11日

StriderSPD: Structure-Guided Joint Representation Learning for Binary Security Patch Detection

Arxiv

0+阅读 · 1月9日

STELLAR: A Search-Based Testing Framework for Large Language Model Applications

Arxiv

0+阅读 · 1月5日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于学习的智能化漏洞挖掘关键技术研究

国家自然科学基金

6+阅读 · 2017年12月31日

基于抽象语义切片和后向求精分析的静态分析警报自动确认研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向传感网的软件定义测量技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向应用商店的移动智能终端恶意软件检测关键技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于网络活动分析的窃密木马检测技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

自检测型量子密钥分配研究

国家自然科学基金

0+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员