Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing - 专知论文

会员服务 ·

0

系统 · 渗透 · 自动化 · 机器人 · 机器人操作平台 ·

Environment-Grounded Multi-Agent Workflow for Autonomous Penetration Testing

翻译：面向环境的自主渗透测试多智能体工作流程

Michael Somma,Markus Großpointner,Paul Zabalegui,Eppu Heilimo,Branka Stojanović

The increasing complexity and interconnectivity of digital infrastructures make scalable and reliable security assessment methods essential. Robotic systems represent a particularly important class of operational technology, as modern robots are highly networked cyber-physical systems deployed in domains such as industrial automation, logistics, and autonomous services. This paper explores the use of large language models for automated penetration testing in robotic environments. We propose an environment-grounded multi-agent architecture tailored to Robotics-based systems. The approach dynamically constructs a shared graph-based memory during execution that captures the observable system state, including network topology, communication channels, vulnerabilities, and attempted exploits. This enables structured automation while maintaining traceability and effective context management throughout the testing process. Evaluated across multiple iterations within a specialized robotics Capture-the-Flag scenario (ROS/ROS2), the system demonstrated high reliability, successfully completing the challenge in 100\% of test runs (n=5). This performance significantly exceeds literature benchmarks while maintaining the traceability and human oversight required by frameworks like the EU AI Act.

翻译：数字基础设施日益复杂且高度互联，使得可扩展且可靠的安全评估方法变得至关重要。机器人系统作为一类重要的操作技术，代表了高度网络化的物理信息系统，广泛应用于工业自动化、物流及自主服务等领域。本文探讨了将大语言模型应用于机器人环境中的自动化渗透测试。我们提出了一种面向机器人系统的、基于环境感知的多智能体架构。该方法在执行过程中动态构建基于图的共享内存，捕获可观测的系统状态，包括网络拓扑、通信信道、漏洞及已尝试的攻击行为。这使得在保持测试过程中可追溯性和有效上下文管理的同时，实现了结构化自动化。在专用机器人夺旗场景（ROS/ROS2）中进行多次迭代评估后，该系统展现了高可靠性，在全部测试轮次中均成功完成挑战（n=5）。该性能显著超越文献基准，同时满足欧盟人工智能法案等框架要求的可追溯性与人工监督。

0

相关内容

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

12+阅读 · 6月11日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

10+阅读 · 5月29日

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

专知会员服务

20+阅读 · 2025年6月15日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

35+阅读 · 2025年4月15日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

多智能体自主系统《群体自主系统的实时路径规划》248页

多智能体自主系统《群体自主系统的实时路径规划》248页

专知会员服务

90+阅读 · 2024年3月19日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

人工智能的逆向工程--反向智能研究综述

人工智能的逆向工程--反向智能研究综述

专知会员服务

54+阅读 · 2023年1月22日

《实现具有一致性和全局最优的鲁棒多智能体自主水下检测方法》密歇根大学150页博士论文

《实现具有一致性和全局最优的鲁棒多智能体自主水下检测方法》密歇根大学150页博士论文

专知会员服务

35+阅读 · 2022年9月29日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知

14+阅读 · 2020年4月6日

【泡泡图灵智库】工业环境中用于表面缺陷检测的全卷积网络

【泡泡图灵智库】工业环境中用于表面缺陷检测的全卷积网络

泡泡机器人SLAM

12+阅读 · 2019年9月21日

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

泡泡机器人SLAM

23+阅读 · 2019年9月7日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

Adaptive and AI-Augmented Security Testing: A Systematic Survey of Program Analysis, Feedback-Driven Testing, and Hybrid Learning-Based Approaches

Arxiv

0+阅读 · 4月29日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

xOffense: An Autonomous Multi-Agent Framework for Penetration Testing with Domain-Adapted Large Language Models

Arxiv

0+阅读 · 4月27日

Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

Arxiv

0+阅读 · 4月22日

Towards Automated Pentesting with Large Language Models

Arxiv

0+阅读 · 4月13日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

1+阅读 · 4月10日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Red-MIRROR: Agentic LLM-based Autonomous Penetration Testing with Reflective Verification and Knowledge-augmented Interaction

Arxiv

0+阅读 · 3月28日

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Arxiv

0+阅读 · 3月26日

VIP会员

文章信息

相关主题

机器人操作平台

最新内容

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

1+阅读 · 今天15:03

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

0+阅读 · 今天14:31

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

0+阅读 · 今天14:29

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

12+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

7+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

8+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

12+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

21+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

相关VIP内容

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

12+阅读 · 6月11日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

10+阅读 · 5月29日

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

【博士论文】迈向负责任的人工智能：自主系统在安全性、公平性与可问责性方面的最新进展

专知会员服务

20+阅读 · 2025年6月15日

面向大模型多智能体系统的多维评估方法

面向大模型多智能体系统的多维评估方法

专知会员服务

35+阅读 · 2025年4月15日

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

【NUS博士论文】面向交互的多智能体行为预测，156页pdf

专知会员服务

32+阅读 · 2024年11月17日

多智能体自主系统《群体自主系统的实时路径规划》248页

多智能体自主系统《群体自主系统的实时路径规划》248页

专知会员服务

90+阅读 · 2024年3月19日

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

可解释AI《增加自主智能体透明度的用户直观解释》论文，雷神技术研究中心

专知会员服务

48+阅读 · 2023年3月20日

人工智能的逆向工程--反向智能研究综述

人工智能的逆向工程--反向智能研究综述

专知会员服务

54+阅读 · 2023年1月22日

《实现具有一致性和全局最优的鲁棒多智能体自主水下检测方法》密歇根大学150页博士论文

《实现具有一致性和全局最优的鲁棒多智能体自主水下检测方法》密歇根大学150页博士论文

专知会员服务

35+阅读 · 2022年9月29日

自动驾驶智能系统测试研究综述

专知会员服务

98+阅读 · 2021年1月24日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

美国从乌克兰无人机战争中学习经验

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

【集群机器人】《考虑敌手的多智能体系统协同任务分配与运动规划》2022最新226页博士论文，密歇根大学

专知

30+阅读 · 2022年11月23日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

【CVPR2020-港科大-腾讯】基于注意力机制及多关系检测器的小样本物体检测

专知

14+阅读 · 2020年4月6日

【泡泡图灵智库】工业环境中用于表面缺陷检测的全卷积网络

【泡泡图灵智库】工业环境中用于表面缺陷检测的全卷积网络

泡泡机器人SLAM

12+阅读 · 2019年9月21日

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

【泡泡图灵智库】多传感器深度连续融合的三维目标检测方法

泡泡机器人SLAM

23+阅读 · 2019年9月7日

面向人工智能的计算机体系结构

面向人工智能的计算机体系结构

计算机研究与发展

14+阅读 · 2019年6月6日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

【协作机器人】人机协作机器人的核心是多传感器技术与智能控制算法、工业机器人协作应用挑战

产业智能官

13+阅读 · 2019年1月17日

相关论文

Adaptive and AI-Augmented Security Testing: A Systematic Survey of Program Analysis, Feedback-Driven Testing, and Hybrid Learning-Based Approaches

Arxiv

0+阅读 · 4月29日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

xOffense: An Autonomous Multi-Agent Framework for Penetration Testing with Domain-Adapted Large Language Models

Arxiv

0+阅读 · 4月27日

Synthesizing Multi-Agent Harnesses for Vulnerability Discovery

Arxiv

0+阅读 · 4月22日

Towards Automated Pentesting with Large Language Models

Arxiv

0+阅读 · 4月13日

Reasoning Provenance for Autonomous AI Agents: Structured Behavioral Analytics Beyond State Checkpoints and Execution Traces

Arxiv

1+阅读 · 4月10日

Multimodal Anomaly Detection for Human-Robot Interaction

Arxiv

0+阅读 · 4月10日

Self-Optimizing Multi-Agent Systems for Deep Research

Arxiv

0+阅读 · 4月3日

Red-MIRROR: Agentic LLM-based Autonomous Penetration Testing with Reflective Verification and Knowledge-augmented Interaction

Arxiv

0+阅读 · 3月28日

TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization

Arxiv

0+阅读 · 3月26日

相关基金

基于智能模糊测试的深度漏洞挖掘技术研究

国家自然科学基金

4+阅读 · 2017年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

面向安全关键系统的时间可预测多核代码生成方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于群体智能的多无人机编队自主协调控制及验证

国家自然科学基金

21+阅读 · 2013年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

50+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员