Driven by Large Language Models, the single-agent, multi-tool architecture has become a popular paradigm for autonomous agents. However, this architecture introduces a severe privacy risk, which we term Tools Orchestration Privacy Risk (TOP-R): an agent, to achieve a benign user goal, autonomously aggregates non-sensitive fragments from multiple tools and synthesizes unexpected sensitive information. We provide the first systematic study of this risk. We establish a formal framework characterizing TOP-R through three necessary conditions -- conclusion sensitivity, single-source non-inferability, and compositional inferability. We construct TOP-Bench via a Reverse Inference Seed Expansion (RISE) pipeline, incorporating paired social-context scenarios for diagnostic analysis. We further introduce the H-Score, a harmonic mean of task completion and safety, to quantify the utility-safety trade-off. Evaluation of six state-of-the-art LLMs reveals pervasive risk: the average Overall Leakage Rate reaches 62.11% with an H-Score of only 52.90%. Our experiments identify three root causes: deficient spontaneous privacy awareness, reasoning overshoot, and inference inertia. Guided by these findings, we propose three complementary mitigation strategies targeting the output, reasoning, and review stages of the agent pipeline; the strongest configuration, Dual-Constraint Privacy Enhancement, achieves an H-Score of 79.20%. Our work reveals a new risk class in tool-using agents, analyzes leakage causes, and provides practical mitigation strategies.


翻译:在大型语言模型的驱动下,单智能体多工具架构已成为自主智能体的主流范式。然而,该架构引入了严重的隐私风险,我们称之为工具编排隐私风险:智能体为实现良性用户目标,自主聚合来自多个工具的非敏感信息片段,进而合成意料之外的敏感信息。本文首次对该风险进行了系统性研究。我们建立了形式化框架,通过三个必要条件——结论敏感性、单源不可推理性与组合可推理性——来刻画工具编排隐私风险。通过反向推理种子扩展流程,我们构建了包含配对社会情境场景的诊断分析基准测试集TOP-Bench。进一步引入H-Score(任务完成度与安全性的调和平均数)来量化效用-安全权衡。对六个前沿大型语言模型的评估揭示了普遍存在的风险:平均总体泄露率达到62.11%,而H-Score仅为52.90%。实验分析识别出三大根本原因:自发性隐私意识缺失、推理越界与推断惯性。基于这些发现,我们提出了三种针对智能体流程输出、推理与审查阶段的互补缓解策略;其中最强配置——双重约束隐私增强方案——实现了79.20%的H-Score。本研究揭示了工具使用智能体的新型风险类别,分析了泄露成因,并提供了切实可行的缓解策略。

0
下载
关闭预览

相关内容

智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体安全综述:应用、威胁与防御
专知会员服务
41+阅读 · 2025年10月12日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
45+阅读 · 2025年8月18日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
46+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
综述——隐私保护集合交集计算技术研究
计算机研究与发展
22+阅读 · 2017年10月24日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月1日
VIP会员
最新内容
《新兴技术武器化及其对全球风险的影响》
专知会员服务
6+阅读 · 今天4:27
《帕兰泰尔平台介绍:信息分析平台》
专知会员服务
16+阅读 · 今天4:20
智能体化世界建模:基础、能力、规律及展望
专知会员服务
10+阅读 · 4月28日
美海警海上态势感知无人系统
专知会员服务
6+阅读 · 4月28日
相关VIP内容
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体安全综述:应用、威胁与防御
专知会员服务
41+阅读 · 2025年10月12日
AI智能体编程:技术、挑战与机遇综述
专知会员服务
45+阅读 · 2025年8月18日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
46+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员