With the rapid development of LLM-based multi-agent systems (MAS), their significant safety and security concerns have emerged, which introduce novel risks going beyond single agents or LLMs. Despite attempts to address these issues, the existing literature lacks a cohesive safeguarding system specialized for MAS risks. In this work, we introduce TrinityGuard, a comprehensive safety evaluation and monitoring framework for LLM-based MAS, grounded in the OWASP standards. Specifically, TrinityGuard encompasses a three-tier fine-grained risk taxonomy that identifies 20 risk types, covering single-agent vulnerabilities, inter-agent communication threats, and system-level emergent hazards. Designed for scalability across various MAS structures and platforms, TrinityGuard is organized in a trinity manner, involving an MAS abstraction layer that can be adapted to any MAS structures, an evaluation layer containing risk-specific test modules, alongside runtime monitor agents coordinated by a unified LLM Judge Factory. During Evaluation, TrinityGuard executes curated attack probes to generate detailed vulnerability reports for each risk type, where monitor agents analyze structured execution traces and issue real-time alerts, enabling both pre-development evaluation and runtime monitoring. We further formalize these safety metrics and present detailed case studies across various representative MAS examples, showcasing the versatility and reliability of TrinityGuard. Overall, TrinityGuard acts as a comprehensive framework for evaluating and monitoring various risks in MAS, paving the way for further research into their safety and security.


翻译:随着基于大语言模型的多智能体系统的快速发展,其显著的安全与安保问题日益凸显,这些风险超越了单智能体或大语言模型所面临的挑战。尽管已有研究尝试解决这些问题,但现有文献仍缺乏专门针对多智能体系统风险的统一保障体系。本文提出TrinityGuard——一个基于OWASP标准的、针对基于大语言模型的多智能体系统的综合性安全评估与监控框架。具体而言,TrinityGuard构建了一个包含20种风险类型的三层细粒度风险分类体系,涵盖单智能体漏洞、智能体间通信威胁以及系统级涌现性危害。该框架采用三位一体架构设计,具备跨多种多智能体系统结构与平台的可扩展性:包括可适配任意多智能体系统结构的抽象层、包含风险专项测试模块的评估层,以及由统一的大语言模型裁判工厂协调的运行时监控智能体。在评估阶段,TrinityGuard执行精心设计的攻击探针,为每类风险生成详细漏洞报告;监控智能体则通过分析结构化执行轨迹实时发布警报,实现开发前评估与运行时监控的双重保障。我们进一步形式化了这些安全度量指标,并在多个典型多智能体系统示例中展开详细案例研究,展示了TrinityGuard的通用性与可靠性。总体而言,TrinityGuard作为评估与监控多智能体系统各类风险的综合性框架,为相关安全与安保研究的深入探索铺平了道路。

0
下载
关闭预览

相关内容

《人工智能使能系统可靠性框架》
专知会员服务
17+阅读 · 4月27日
多智能体协作机制
专知会员服务
21+阅读 · 4月25日
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
13+阅读 · 2月27日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
39+阅读 · 2月2日
《军事领域人工智能网络安全的数字主权控制框架》
专知会员服务
20+阅读 · 2025年9月20日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
42+阅读 · 2025年1月19日
专知会员服务
63+阅读 · 2021年7月5日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
基于车路协同的群体智能协同
智能交通技术
10+阅读 · 2019年1月23日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
DeepSeek 版Claude Code,免费小白安装教程来了!
专知会员服务
8+阅读 · 5月5日
《美空军条令出版物 2-0:情报(2026版)》
专知会员服务
13+阅读 · 5月5日
帕兰提尔 Gotham:一个游戏规则改变器
专知会员服务
8+阅读 · 5月5日
【综述】 机器人学习中的世界模型:全面综述
专知会员服务
12+阅读 · 5月4日
伊朗的导弹-无人机行动及其对美国威慑的影响
相关VIP内容
《人工智能使能系统可靠性框架》
专知会员服务
17+阅读 · 4月27日
多智能体协作机制
专知会员服务
21+阅读 · 4月25日
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
13+阅读 · 2月27日
《多智能体大语言模型系统的可靠决策研究》
专知会员服务
39+阅读 · 2月2日
《军事领域人工智能网络安全的数字主权控制框架》
专知会员服务
20+阅读 · 2025年9月20日
多循环嵌套的大语言模型多智能体指挥控制过程
专知会员服务
42+阅读 · 2025年1月19日
专知会员服务
63+阅读 · 2021年7月5日
相关资讯
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员