This work introduces xOffense, an AI-driven, multi-agent penetration testing framework that shifts the process from labor-intensive, expert-driven manual efforts to fully automated, machine-executable workflows capable of scaling seamlessly with computational infrastructure. At its core, xOffense leverages a fine-tuned, mid-scale open-source LLM (Qwen3-32B) to drive reasoning and decision-making in penetration testing. The framework assigns specialized agents to reconnaissance, vulnerability scanning, and exploitation, with an orchestration layer ensuring seamless coordination across phases. Fine-tuning on Chain-of-Thought penetration testing data further enables the model to generate precise tool commands and perform consistent multi-step reasoning. We evaluate xOffense on two rigorous benchmarks: AutoPenBench and AI-Pentest-Benchmark. The results demonstrate that xOffense consistently outperforms contemporary methods, achieving a sub-task completion rate of 79.17%, decisively surpassing leading systems such as VulnBot and PentestGPT. These findings highlight the potential of domain-adapted mid-scale LLMs, when embedded within structured multi-agent orchestration, to deliver superior, cost-efficient, and reproducible solutions for autonomous penetration testing.


翻译:本文提出了xOffense框架,这是一个基于人工智能的多智能体渗透测试系统,将传统依赖人工、专家驱动的密集型流程,转变为能够在计算基础设施上无缝扩展的全自动化机器执行工作流。该框架核心采用经微调的中等规模开源大语言模型(Qwen3-32B)驱动渗透测试中的推理与决策过程,通过为侦察、漏洞扫描和利用等环节分配专业化智能体,并依托编排层实现各阶段的无缝协同。基于思维链渗透测试数据的微调,使模型能够生成精准的工具指令并执行一致的多步推理。我们在AutoPenBench和AI-Pentest-Benchmark两项严格基准上对xOffense进行评估,结果表明该框架在子任务完成率上达到79.17%,显著超越VulnBot和PentestGPT等前沿系统。这些发现揭示了领域自适应中等规模大语言模型在结构化多智能体编排架构中的潜力,可为自主渗透测试提供高效、经济且可复现的解决方案。

0
下载
关闭预览

相关内容

《大语言模型驱动的智能红队测试》
专知会员服务
18+阅读 · 2025年11月26日
《军事领域人工智能网络安全的数字主权控制框架》
专知会员服务
21+阅读 · 2025年9月20日
专知会员服务
64+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
Xsser 一款自动检测XSS漏洞工具
黑白之道
14+阅读 · 2019年8月26日
Web渗透测试Fuzz字典分享
黑白之道
21+阅读 · 2019年5月22日
爱奇艺基于AI的移动端自动化测试框架的设计
前端之巅
18+阅读 · 2019年2月27日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
3+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
10+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员