Can Open-Source LLM Agents Replace Static Application Security Testing Tools? An Empirical Assessment - 专知论文

会员服务 ·

0

工具 · 应用安全 · 语言模型 · 大语言模型 · 模型驱动 ·

Can Open-Source LLM Agents Replace Static Application Security Testing Tools? An Empirical Assessment

翻译：开源大语言模型代理能否取代静态应用安全测试工具？一项实证评估

Derek Yohn,Luke Flancher,Mirajul Islam,Khaled Slhoub

from arxiv, Keywords: Agentic AI, Cybersecurity, Large Language Models, Static Application Security Testing, Model performance evaluation

This paper explores the value of agentic AI tools for cybersecurity purposes. We evaluate the efficacy of a general-purpose GenAI Large Language Model- (GenAI-) based agent when powered by three different Ollama-hosted general-purpose open source models. We assess each agent's performance using precision, recall, false positive count, and a calculated composite score based upon the interplay of the captured metrics, against the baseline performance of an existing, vetted Static Application Security Testing (SAST) tool, Bandit. Our findings refute the notion that a modern open-source GenAI LLM-based agent is currently suitable for the specialized task of SAST scanning under realistic conditions.

翻译：本文探讨了自主式人工智能工具在网络安全领域的应用价值。我们评估了基于通用生成式大语言模型（GenAI）的代理在三种由Ollama托管的通用开源模型驱动下的效能。通过精确率、召回率、误报数量以及基于捕获指标间相互作用计算得出的综合评分，我们将其性能与经过验证的静态应用安全测试工具Bandit的基准性能进行了对比。研究结果否定了"现代开源GenAI大语言模型代理在当前现实条件下能够胜任SAST扫描这一专业任务"的观点。

0

相关内容

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

18+阅读 · 2025年11月26日

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

专知会员服务

28+阅读 · 2025年7月26日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

33+阅读 · 2025年4月23日

大型语言模型代理的安全与隐私综述

大型语言模型代理的安全与隐私综述

专知会员服务

30+阅读 · 2024年8月5日

大型语言模型在国家安全应用中的使用

大型语言模型在国家安全应用中的使用

专知会员服务

57+阅读 · 2024年7月13日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

OpenNRE 2.0：可一键运行的开源关系抽取工具包

OpenNRE 2.0：可一键运行的开源关系抽取工具包

PaperWeekly

22+阅读 · 2019年10月30日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

Like a Hammer, It Can Build, It Can Break: Large Language Model Uses, Perceptions, and Adoption in Cybersecurity Operations on Reddit

Arxiv

0+阅读 · 6月15日

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Arxiv

0+阅读 · 6月15日

SkillVetBench: LLM-as-Judge for Multi-Dimensional Security Risk Evaluation in Open-Source LLM Agent Skills

Arxiv

0+阅读 · 6月14日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月12日

OpenPCC: Open and Confidential LLM Serving on Commodity TEEs

Arxiv

0+阅读 · 6月9日

CTFExplorer: Evaluating LLM Offensive Agents Through Multi-Target Web CTF Benchmarking

Arxiv

0+阅读 · 5月20日

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

Arxiv

0+阅读 · 5月14日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Arxiv

0+阅读 · 5月7日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

VIP会员

文章信息

相关主题

大语言模型

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

6+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

2+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

3+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

15+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

12+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

12+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

8+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

13+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

9+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

23+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

11+阅读 · 6月17日

相关VIP内容

《大语言模型驱动的智能红队测试》

《大语言模型驱动的智能红队测试》

专知会员服务

18+阅读 · 2025年11月26日

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

专知会员服务

28+阅读 · 2025年7月26日

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

大型语言模型（LLM）智能体全栈安全的综述：数据、训练与部署

专知会员服务

33+阅读 · 2025年4月23日

大型语言模型代理的安全与隐私综述

大型语言模型代理的安全与隐私综述

专知会员服务

30+阅读 · 2024年8月5日

大型语言模型在国家安全应用中的使用

大型语言模型在国家安全应用中的使用

专知会员服务

57+阅读 · 2024年7月13日

大型语言模型网络安全综述

大型语言模型网络安全综述

专知会员服务

68+阅读 · 2024年5月12日

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

如何构建媲美ChatGPT的开源大模型？南洋理工等最新《开源大型语言模型》综述，最佳开源LLM配方

专知会员服务

75+阅读 · 2023年11月29日

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

AI Agent下一个热点？复旦最新86页《大型语言模型智能体的崛起与潜力》综述，详述LLM Agent: 大脑、感知和行动

专知会员服务

170+阅读 · 2023年9月15日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

大模型如何可信安全？利物浦大学最新《从验证和确认的角度综述大型语言模型的安全性和可信性》综述，全面阐述LLM安全性

专知会员服务

66+阅读 · 2023年5月30日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

华为诺亚方舟预训练语言模型NEZHA、TinyBERT开源代码

专知

17+阅读 · 2019年12月7日

OpenNRE 2.0：可一键运行的开源关系抽取工具包

OpenNRE 2.0：可一键运行的开源关系抽取工具包

PaperWeekly

22+阅读 · 2019年10月30日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

谷歌EfficientNet缩放模型，PyTorch实现登热榜

谷歌EfficientNet缩放模型，PyTorch实现登热榜

机器学习算法与Python学习

11+阅读 · 2019年6月4日

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

Github项目推荐 | 比快更快！速度超越OpenCV的人脸检测库 libfacedetection 开源！

AI研习社

10+阅读 · 2019年3月18日

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

刷新三项COCO纪录！姿态估计模型HRNet开源了，中科大微软出品 | CVPR

量子位

11+阅读 · 2019年2月28日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

相关论文

Like a Hammer, It Can Build, It Can Break: Large Language Model Uses, Perceptions, and Adoption in Cybersecurity Operations on Reddit

Arxiv

0+阅读 · 6月15日

Large Language Models for Agentic NetOps and AIOps: Architectures, Evaluation, and Safety

Arxiv

0+阅读 · 6月15日

SkillVetBench: LLM-as-Judge for Multi-Dimensional Security Risk Evaluation in Open-Source LLM Agent Skills

Arxiv

0+阅读 · 6月14日

LLM Agents Can See Code Repositories

Arxiv

0+阅读 · 6月12日

OpenPCC: Open and Confidential LLM Serving on Commodity TEEs

Arxiv

0+阅读 · 6月9日

CTFExplorer: Evaluating LLM Offensive Agents Through Multi-Target Web CTF Benchmarking

Arxiv

0+阅读 · 5月20日

Is Grep All You Need? How Agent Harnesses Reshape Agentic Search

Arxiv

0+阅读 · 5月14日

Searching for Privacy Risks in LLM Agents via Simulation

Arxiv

0+阅读 · 5月8日

Cited but Not Verified: Parsing and Evaluating Source Attribution in LLM Deep Research Agents

Arxiv

0+阅读 · 5月7日

AgentBench: Evaluating LLMs as Agents

Arxiv

14+阅读 · 2023年8月7日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向CCMANET网络可证明安全命名与名字路由机制关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于第三方的APP软件质量度量和评估方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于群体智能的多Agent协作模型与适应性研究

国家自然科学基金

18+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员