Security Considerations for Artificial Intelligence Agents - 专知论文

会员服务 ·

0

智能代理 · Perplexity · 系统 · 多代理 · 代理系统 ·

Security Considerations for Artificial Intelligence Agents

翻译：人工智能代理的安全考量

Ninghui Li,Kaiyuan Zhang,Kyle Polley,Jerry Ma

from arxiv, Perplexity Response to NIST/CAISI Request for Information 2025-0035. 91 Fed. Reg. 698 (Jan. 8, 2026)

This article, a lightly adapted version of Perplexity's response to NIST/CAISI Request for Information 2025-0035, details our observations and recommendations concerning the security of frontier AI agents. These insights are informed by Perplexity's experience operating general-purpose agentic systems used by millions of users and thousands of enterprises in both controlled and open-world environments. Agent architectures change core assumptions around code-data separation, authority boundaries, and execution predictability, creating new confidentiality, integrity, and availability failure modes. We map principal attack surfaces across tools, connectors, hosting boundaries, and multi-agent coordination, with particular emphasis on indirect prompt injection, confused-deputy behavior, and cascading failures in long-running workflows. We then assess current defenses as a layered stack: input-level and model-level mitigations, sandboxed execution, and deterministic policy enforcement for high-consequence actions. Finally, we identify standards and research gaps, including adaptive security benchmarks, policy models for delegation and privilege control, and guidance for secure multi-agent system design aligned with NIST risk management principles.

翻译：本文是Perplexity对NIST/CAISI 2025-0035号信息征询书的轻度改编版回应，详细阐述了我们在前沿人工智能代理安全方面的观察与建议。这些见解源自Perplexity在受控环境和开放环境中运营数百万人及数千家企业使用的通用代理系统的实践经验。代理架构改变了关于代码-数据分离、权限边界和执行可预测性的核心假设，从而产生了新的机密性、完整性和可用性失效模式。我们梳理了工具、连接器、托管边界和多代理协调等主要攻击面，特别关注间接提示注入、权限混淆代理行为以及长时工作流中的级联故障。随后，我们以分层架构评估当前防御措施：输入级与模型级缓解策略、沙箱化执行机制，以及针对高影响行为的确定性策略执行框架。最后，我们指出了标准制定与研究空白领域，包括自适应安全基准测试、委托与权限控制策略模型，以及符合NIST风险管理原则的安全多代理系统设计指南。

0

相关内容

智能代理

《军事人工智能网络代理对关键基础设施构成全球性威胁》

《军事人工智能网络代理对关键基础设施构成全球性威胁》

专知会员服务

21+阅读 · 2025年12月11日

《人工智能安全治理框架》2.0版发布，90页pdf

《人工智能安全治理框架》2.0版发布，90页pdf

专知会员服务

22+阅读 · 2025年10月8日

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

22+阅读 · 2025年5月14日

2024 人工智能安全报告

2024 人工智能安全报告

专知会员服务

83+阅读 · 2024年3月8日

《生成式人工智能服务安全基本要求》（征求意见稿）

《生成式人工智能服务安全基本要求》（征求意见稿）

专知会员服务

48+阅读 · 2023年11月29日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

美国军事人工智能发展及其安全问题的思考

美国军事人工智能发展及其安全问题的思考

专知会员服务

101+阅读 · 2022年4月24日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

人工智能安全框架

专知会员服务

63+阅读 · 2021年7月5日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

150+阅读 · 2019年11月8日

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

45+阅读 · 2022年6月11日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

权威发布：新一代人工智能发展白皮书(2017)丨附下载

权威发布：新一代人工智能发展白皮书(2017)丨附下载

德先生

10+阅读 · 2018年2月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

Cybersecurity AI: Hacking Consumer Robots in the AI Era

Arxiv

0+阅读 · 3月9日

Safety First: Psychological Safety as the Key to AI Transformation

Arxiv

0+阅读 · 2月26日

Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks

Arxiv

0+阅读 · 2月25日

International AI Safety Report 2026

Arxiv

0+阅读 · 2月24日

Security Risks of AI Agents Hiring Humans: An Empirical Marketplace Study

Arxiv

0+阅读 · 2月23日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月21日

Intellicise Wireless Networks Meet Agentic AI: A Security and Privacy Perspective

Arxiv

0+阅读 · 2月17日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration

Arxiv

1+阅读 · 2月11日

From Fragmentation to Integration: Exploring the Design Space of AI Agents for Human-as-the-Unit Privacy Management

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

专知会员服务

0+阅读 · 今天15:39

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

专知会员服务

4+阅读 · 今天11:17

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

专知会员服务

3+阅读 · 今天11:09

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

专知会员服务

4+阅读 · 今天4:55

《化繁为简：军事模拟器配置的对话式方法》报告

《化繁为简：军事模拟器配置的对话式方法》报告

专知会员服务

5+阅读 · 今天4:33

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

《人机协同研究报告——衡量与预测技术流利性：知识、技能、能力及其他行为如何促成技术精通》146页

专知会员服务

9+阅读 · 今天4:29

《新兴技术武器化及其对全球风险的影响》

《新兴技术武器化及其对全球风险的影响》

专知会员服务

6+阅读 · 今天4:27

《帕兰泰尔平台介绍：信息分析平台》

《帕兰泰尔平台介绍：信息分析平台》

专知会员服务

15+阅读 · 今天4:20

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

Maven智能系统（MSS）如何赋能第三方解决方案：北约视角

专知会员服务

9+阅读 · 今天2:39

【伯克利博士论文】深度解析 AI 智能体的失配问题

【伯克利博士论文】深度解析 AI 智能体的失配问题

专知会员服务

7+阅读 · 4月28日

智能体化世界建模：基础、能力、规律及展望

智能体化世界建模：基础、能力、规律及展望

专知会员服务

9+阅读 · 4月28日

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

MIT人机协同水下作业关键技术研究——集成适配至美国海军现役AUV

专知会员服务

8+阅读 · 4月28日

美海警海上态势感知无人系统

美海警海上态势感知无人系统

专知会员服务

6+阅读 · 4月28日

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

安杜里尔Lattice平台的发展演变：美军多域自主作战的核心软件架构

专知会员服务

10+阅读 · 4月28日

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

《释放自主力量：将人工智能驱动无人机融入现代军事战略》

专知会员服务

15+阅读 · 4月28日

相关VIP内容

《军事人工智能网络代理对关键基础设施构成全球性威胁》

《军事人工智能网络代理对关键基础设施构成全球性威胁》

专知会员服务

21+阅读 · 2025年12月11日

《人工智能安全治理框架》2.0版发布，90页pdf

《人工智能安全治理框架》2.0版发布，90页pdf

专知会员服务

22+阅读 · 2025年10月8日

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

22+阅读 · 2025年5月14日

2024 人工智能安全报告

2024 人工智能安全报告

专知会员服务

83+阅读 · 2024年3月8日

《生成式人工智能服务安全基本要求》（征求意见稿）

《生成式人工智能服务安全基本要求》（征求意见稿）

专知会员服务

48+阅读 · 2023年11月29日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

美国军事人工智能发展及其安全问题的思考

美国军事人工智能发展及其安全问题的思考

专知会员服务

101+阅读 · 2022年4月24日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知会员服务

378+阅读 · 2022年2月26日

人工智能安全框架

专知会员服务

63+阅读 · 2021年7月5日

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

《人工智能数据安全白皮书》（2019版）发布，51页PDF，中国信息通信研究院编

专知会员服务

150+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

主权智能前沿：战略霸权与算法战争代差的比较分析——第二部分

《忠诚僚机、人工智能与认知增强：对赛博格-无人机战争的警示》

机器人领域中的视觉-语言-动作模型：数据集、基准测试与数据引擎综述

万亿美元智能竞赛：OpenAI的主权崛起与数字神经系统的高风险博弈——第一部分

相关资讯

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

45+阅读 · 2022年6月11日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

权威发布：新一代人工智能发展白皮书(2017)丨附下载

权威发布：新一代人工智能发展白皮书(2017)丨附下载

德先生

10+阅读 · 2018年2月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

Cybersecurity AI: Hacking Consumer Robots in the AI Era

Arxiv

0+阅读 · 3月9日

Safety First: Psychological Safety as the Key to AI Transformation

Arxiv

0+阅读 · 2月26日

Bypassing AI Control Protocols via Agent-as-a-Proxy Attacks

Arxiv

0+阅读 · 2月25日

International AI Safety Report 2026

Arxiv

0+阅读 · 2月24日

Security Risks of AI Agents Hiring Humans: An Empirical Marketplace Study

Arxiv

0+阅读 · 2月23日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月21日

Intellicise Wireless Networks Meet Agentic AI: A Security and Privacy Perspective

Arxiv

0+阅读 · 2月17日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

AgentCrypt: Advancing Privacy and (Secure) Computation in AI Agent Collaboration

Arxiv

1+阅读 · 2月11日

From Fragmentation to Integration: Exploring the Design Space of AI Agents for Human-as-the-Unit Privacy Management

Arxiv

0+阅读 · 2月4日

相关基金

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

复杂系统中多密码算法密钥协同安全研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于人眼关注度与情感分析的电子商务智能推荐计算

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员