Multi-agent Large Language Model (LLM) systems create privacy risks that current output-only benchmarks cannot measure. When agents coordinate on tasks, sensitive data may pass through inter-agent messages, shared memory, and tool arguments, all pathways that final-output audits typically do not inspect. We introduce AgentLeak, a benchmark for evaluating internal-channel privacy leakage in multi-agent LLM systems. AgentLeak instruments seven privacy-relevant communication pathways and provides a large-scale empirical evaluation focused on final outputs, inter-agent messages, and shared memory. Across 1,000 scenarios spanning healthcare, finance, legal, and corporate domains, five production LLMs (GPT-4o, GPT-4o-mini, Claude 3.5 Sonnet, Mistral Large, and Llama 3.3 70B), and 4,979 validated execution traces, we find that multi-agent configurations reduce final-output leakage (C1: 27.2% vs 43.2% in single-agent mode) compared with single-agent baselines but introduce internal channels that raise total system exposure to 68.9% (aggregated across C1, C2, C5). Inter-agent messages (C2) leak at 68.8%, compared with 27.2% for final outputs (C1), meaning that output-only audits miss 41.7% of violations. Across all five models and four domains, the pattern C2 $\geq$ C1 holds consistently. These results suggest, within the evaluated coordinator-worker setting, that privacy risk in multi-agent systems is strongly shaped by architectural coordination channels rather than final-output behavior alone: it arises from internal channels that remain invisible to standard output-level defenses.


翻译:多智能体大语言模型系统会引发当前仅针对输出的基准测试无法衡量的隐私风险。当智能体协同完成任务时,敏感数据可能通过智能体间消息、共享内存及工具参数等路径传递,而这些路径通常未被最终输出审计所检查。我们提出了AgentLeak,一个用于评估多智能体大语言模型系统内部通道隐私泄露的基准测试。AgentLeak对七条隐私相关通信通路进行检测,并基于最终输出、智能体间消息和共享内存三个维度开展大规模实证评估。我们在涵盖医疗、金融、法律和企业领域的1000个场景中,使用五种生产级大语言模型(GPT-4o、GPT-4o-mini、Claude 3.5 Sonnet、Mistral Large和Llama 3.3 70B),结合4979条经过验证的执行轨迹发现:与单智能体基线相比,多智能体配置虽能减少最终输出泄露(C1:单智能体模式43.2% vs. 多智能体模式27.2%),但引入的内部通道将系统整体暴露风险提升至68.9%(C1、C2、C5聚合值)。智能体间消息(C2)泄露率达68.8%,而最终输出(C1)仅为27.2%,这意味着仅评估输出的审计会遗漏41.7%的违规行为。在所有五种模型和四个领域中,C2 ≥ C1的模式持续成立。这些结果表明,在所评估的协调者-工作者架构下,多智能体系统的隐私风险主要由架构级协调通道而非最终输出行为决定:风险源于标准输出层防御机制无法监测的内部通道。

0
下载
关闭预览

相关内容

智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
14+阅读 · 2023年8月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关VIP内容
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
36+阅读 · 2025年12月31日
LLM/智能体作为数据分析师:综述
专知会员服务
38+阅读 · 2025年9月30日
Agent AI:多模态交互的新地平线
专知会员服务
22+阅读 · 2025年5月26日
多智能体协作机制:大语言模型综述
专知会员服务
70+阅读 · 2025年3月4日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
291+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
250+阅读 · 2023年9月9日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
47+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员