Large language models (LLMs) have shown promise in assisting cybersecurity tasks, yet existing approaches struggle with automatic vulnerability discovery and exploitation due to limited interaction, weak execution grounding, and a lack of experience reuse. We propose Co-RedTeam, a security-aware multi-agent framework designed to mirror real-world red-teaming workflows by integrating security-domain knowledge, code-aware analysis, execution-grounded iterative reasoning, and long-term memory. Co-RedTeam decomposes vulnerability analysis into coordinated discovery and exploitation stages, enabling agents to plan, execute, validate, and refine actions based on real execution feedback while learning from prior trajectories. Extensive evaluations on challenging security benchmarks demonstrate that Co-RedTeam consistently outperforms strong baselines across diverse backbone models, achieving over 60% success rate in vulnerability exploitation and over 10% absolute improvement in vulnerability detection. Ablation and iteration studies further confirm the critical role of execution feedback, structured interaction, and memory for building robust and generalizable cybersecurity agents.


翻译:大语言模型在辅助网络安全任务方面展现出潜力,然而现有方法由于交互能力有限、执行基础薄弱以及缺乏经验复用,在自动化漏洞发现与利用方面仍面临挑战。本文提出Co-RedTeam,这是一个具备安全感知的多智能体框架,通过整合安全领域知识、代码感知分析、基于执行的迭代推理以及长期记忆机制,模拟真实世界红队攻防工作流程。Co-RedTeam将漏洞分析解构为协同的发现与利用两个阶段,使智能体能够基于实际执行反馈来规划、执行、验证并优化其行动,同时从历史轨迹中持续学习。在具有挑战性的安全基准测试上的广泛评估表明,Co-RedTeam在不同骨干模型上均持续超越现有强基线方法,在漏洞利用任务中取得超过60%的成功率,在漏洞检测任务中实现超过10%的绝对性能提升。消融实验与迭代研究进一步证实了执行反馈、结构化交互以及记忆机制对于构建鲁棒且可泛化的网络安全智能体的关键作用。

0
下载
关闭预览

相关内容

《大语言模型驱动的智能红队测试》
专知会员服务
16+阅读 · 2025年11月26日
大型语言模型网络安全综述
专知会员服务
67+阅读 · 2024年5月12日
大语言模型安全现状与挑战
专知会员服务
87+阅读 · 2024年1月14日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
深度学习应用于网络空间安全所面临的十大问题与机遇
计算机研究与发展
22+阅读 · 2018年6月7日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
RedSage: A Cybersecurity Generalist LLM
Arxiv
0+阅读 · 1月29日
VIP会员
相关资讯
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
深度学习应用于网络空间安全所面临的十大问题与机遇
计算机研究与发展
22+阅读 · 2018年6月7日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员