Existing benchmarks for LLM-based offensive security agents use isolated, single-target setups with a known vulnerable service and fixed objective. They measure exploitation effectively, but miss how real Capture-the-Flag (CTF) participants triage unknown surfaces, prioritize targets, and allocate effort under uncertainty. Current evaluations therefore fail to assess strategic reasoning beyond exploitation alone. To address this, we introduce \textit{CTFExplorer}, a benchmark suite that shifts offensive security evaluation toward a multi-target setting, which tests how agents explore, prioritize, and chain attacks. CTFExplorer deploys 40 web-based vulnerable services within a single environment, where agents must autonomously discover, distinguish, and exploit targets without predefined guidance. We also present a reactive multi-agent setup as a reference agent framework and develop an agent-agnostic evaluation framework that records structured reasoning traces for fine-grained assessment. This enables behavioral evaluation beyond binary flag capture, such as how agents manage target selection, handle failed hypotheses, coordinate across multiple stages, and extract security intelligence.


翻译:现有基于大语言模型的攻防安全代理基准测试采用孤立的单目标设置,依赖已知脆弱服务和固定目标。这类基准虽能有效衡量漏洞利用能力,但忽略了真实夺旗赛参与者如何梳理未知攻击面、排序攻击目标及在不确定性下分配精力的过程。因此,当前评估无法考察超越单纯利用行为的战略推理能力。为解决这一问题,我们提出CTFExplorer基准套件,将攻防安全评估转向多目标场景,检验代理在探索、优先级排序和攻击链编排方面的能力。CTFExplorer在单一环境中部署40个基于Web的脆弱服务,要求代理在没有预设指引的情况下自主发现、识别并利用目标。我们还提出一种响应式多代理框架作为参考代理方案,并开发了与代理无关的评估框架,可记录结构化推理踪迹以实现细粒度评估。由此实现超越单一flag捕获的行为评估,例如代理如何管理目标选择、处理失败假设、跨阶段协调以及提取安全情报。

0
下载
关闭预览

相关内容

军事决策大语言模型综合评价基准
专知会员服务
20+阅读 · 4月1日
基于贝叶斯网络的武器装备体系作战效能评估方法
专知会员服务
90+阅读 · 2023年7月5日
专知会员服务
48+阅读 · 2021年5月17日
专知会员服务
56+阅读 · 2020年12月28日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
【泡泡图灵智库】Detect-SLAM:目标检测和SLAM相互收益
泡泡机器人SLAM
14+阅读 · 2019年6月28日
国外有人/无人平台协同作战概述
无人机
123+阅读 · 2019年5月28日
CTR预估专栏 | 一文搞懂DeepFM的理论与实践
AI前线
13+阅读 · 2018年7月6日
原创 | Attention Modeling for Targeted Sentiment
黑龙江大学自然语言处理实验室
25+阅读 · 2017年11月5日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
[推荐] 这些年,我用过的点击率(CTR)预估模型!!!
菜鸟的机器学习
28+阅读 · 2017年7月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 26分钟前
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 28分钟前
美以伊冲突:无人机与人工智能的运用
专知会员服务
2+阅读 · 40分钟前
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
75+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2013年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员