Security Considerations for Artificial Intelligence Agents - 专知论文

会员服务 ·

0

智能代理 · Perplexity · 系统 · 多代理 · 代理系统 ·

Security Considerations for Artificial Intelligence Agents

翻译：人工智能代理的安全考量

Ninghui Li,Kaiyuan Zhang,Kyle Polley,Jerry Ma

from arxiv, This article is adapted from Perplexity's response to NIST/CAISI Request for Information 2025-0035. 91 Fed. Reg. 698 (Jan. 8, 2026). The originally submitted response can be found on the public docket at https://www.regulations.gov/comment/NIST-2025-0035-0505

This article, a lightly adapted version of Perplexity's response to NIST/CAISI Request for Information 2025-0035, details our observations and recommendations concerning the security of frontier AI agents. These insights are informed by Perplexity's experience operating general-purpose agentic systems used by millions of users and thousands of enterprises in both controlled and open-world environments. Agent architectures change core assumptions around code-data separation, authority boundaries, and execution predictability, creating new confidentiality, integrity, and availability failure modes. We map principal attack surfaces across tools, connectors, hosting boundaries, and multi-agent coordination, with particular emphasis on indirect prompt injection, confused-deputy behavior, and cascading failures in long-running workflows. We then assess current defenses as a layered stack: input-level and model-level mitigations, sandboxed execution, and deterministic policy enforcement for high-consequence actions. Finally, we identify standards and research gaps, including adaptive security benchmarks, policy models for delegation and privilege control, and guidance for secure multi-agent system design aligned with NIST risk management principles.

翻译：本文是Perplexity对NIST/CAISI 2025-0035号信息征询函回复的轻微改编版本，详细阐述了我们关于前沿人工智能代理安全性的观察与建议。这些见解源于Perplexity在受控与开放世界环境中运营服务于数百万用户及数千家企业的通用型代理系统的实践经验。代理架构从根本上改变了关于代码-数据分离、权限边界及执行可预测性的核心假设，由此产生了新的机密性、完整性及可用性失效模式。我们梳理了横跨工具、连接器、托管边界及多代理协调的主要攻击面，重点关注间接提示注入、混淆代理行为及长时间运行工作流中的级联故障。继而，我们以分层防护栈为框架评估当前防御手段：输入层与模型层缓解措施、沙箱化执行，以及针对高后果行动实施的确定性策略强制。最后，我们识别出标准与研究空白，包括自适应安全基准测试、适用于授权委托与权限控制的策略模型，以及遵循NIST风险管理原则的安全多代理系统设计指南。

0

相关内容

智能代理

《军事人工智能网络代理对关键基础设施构成全球性威胁》

《军事人工智能网络代理对关键基础设施构成全球性威胁》

专知会员服务

22+阅读 · 2025年12月11日

《人工智能安全治理框架》2.0版发布，90页pdf

《人工智能安全治理框架》2.0版发布，90页pdf

专知会员服务

23+阅读 · 2025年10月8日

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

23+阅读 · 2025年5月14日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

2024 人工智能安全报告

2024 人工智能安全报告

专知会员服务

83+阅读 · 2024年3月8日

《生成式人工智能服务安全基本要求》（征求意见稿）

《生成式人工智能服务安全基本要求》（征求意见稿）

专知会员服务

48+阅读 · 2023年11月29日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

美国军事人工智能发展及其安全问题的思考

美国军事人工智能发展及其安全问题的思考

专知会员服务

101+阅读 · 2022年4月24日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

48+阅读 · 2022年6月11日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

【人工智能】有关军事混合智能的几点再再思考、深绿” 及 AlphaGo 对指挥与控制智能化的启示

【人工智能】有关军事混合智能的几点再再思考、深绿” 及 AlphaGo 对指挥与控制智能化的启示

产业智能官

44+阅读 · 2018年12月11日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

权威发布：新一代人工智能发展白皮书(2017)丨附下载

权威发布：新一代人工智能发展白皮书(2017)丨附下载

德先生

10+阅读 · 2018年2月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

Security Considerations for Multi-agent Systems

Arxiv

0+阅读 · 4月26日

The Privacy Guardian Agent: Towards Trustworthy AI Privacy Agents

Arxiv

0+阅读 · 4月23日

An Alternate Agentic AI Architecture (It's About the Data)

Arxiv

0+阅读 · 4月23日

Agentic Microphysics: A Manifesto for Generative AI Safety

Arxiv

0+阅读 · 4月16日

Blockchain and AI: Securing Intelligent Networks for the Future

Arxiv

1+阅读 · 4月9日

AI Agents Under EU Law

Arxiv

0+阅读 · 4月6日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

Regulating AI Agents

Arxiv

0+阅读 · 3月24日

Security Barriers to Trustworthy AI-Driven Cyber Threat Intelligence in Finance: Evidence from Practitioners

Arxiv

0+阅读 · 3月24日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

6+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

5+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

5+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

6+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

22+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《军事人工智能网络代理对关键基础设施构成全球性威胁》

《军事人工智能网络代理对关键基础设施构成全球性威胁》

专知会员服务

22+阅读 · 2025年12月11日

《人工智能安全治理框架》2.0版发布，90页pdf

《人工智能安全治理框架》2.0版发布，90页pdf

专知会员服务

23+阅读 · 2025年10月8日

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

专知会员服务

23+阅读 · 2025年5月14日

《人工智能安全标准体系（V1.0）》（征求意见稿）

《人工智能安全标准体系（V1.0）》（征求意见稿）

专知会员服务

29+阅读 · 2025年3月23日

2024 人工智能安全报告

2024 人工智能安全报告

专知会员服务

83+阅读 · 2024年3月8日

《生成式人工智能服务安全基本要求》（征求意见稿）

《生成式人工智能服务安全基本要求》（征求意见稿）

专知会员服务

48+阅读 · 2023年11月29日

人工智能安全挑战及治理研究

人工智能安全挑战及治理研究

专知会员服务

67+阅读 · 2023年6月18日

美国军事人工智能发展及其安全问题的思考

美国军事人工智能发展及其安全问题的思考

专知会员服务

101+阅读 · 2022年4月24日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

《人工智能安全框架（2020年）》白皮书，68页pdf

《人工智能安全框架（2020年）》白皮书，68页pdf

专知会员服务

167+阅读 · 2021年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

人工智能技术在军事领域的应用思考

人工智能技术在军事领域的应用思考

专知

48+阅读 · 2022年6月11日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

【人工智能】有关军事混合智能的几点再再思考、深绿” 及 AlphaGo 对指挥与控制智能化的启示

【人工智能】有关军事混合智能的几点再再思考、深绿” 及 AlphaGo 对指挥与控制智能化的启示

产业智能官

44+阅读 · 2018年12月11日

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

中国信通院：人工智能安全白皮书（2018年）（附解读及白皮书下载）

走向智能论坛

27+阅读 · 2018年9月18日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

智能时代如何构建金融反欺诈体系？

智能时代如何构建金融反欺诈体系？

数据猿

12+阅读 · 2018年3月26日

权威发布：新一代人工智能发展白皮书(2017)丨附下载

权威发布：新一代人工智能发展白皮书(2017)丨附下载

德先生

10+阅读 · 2018年2月26日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

AgentWard: A Lifecycle Security Architecture for Autonomous AI Agents

Arxiv

0+阅读 · 4月27日

Security Considerations for Multi-agent Systems

Arxiv

0+阅读 · 4月26日

The Privacy Guardian Agent: Towards Trustworthy AI Privacy Agents

Arxiv

0+阅读 · 4月23日

An Alternate Agentic AI Architecture (It's About the Data)

Arxiv

0+阅读 · 4月23日

Agentic Microphysics: A Manifesto for Generative AI Safety

Arxiv

0+阅读 · 4月16日

Blockchain and AI: Securing Intelligent Networks for the Future

Arxiv

1+阅读 · 4月9日

AI Agents Under EU Law

Arxiv

0+阅读 · 4月6日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

Regulating AI Agents

Arxiv

0+阅读 · 3月24日

Security Barriers to Trustworthy AI-Driven Cyber Threat Intelligence in Finance: Evidence from Practitioners

Arxiv

0+阅读 · 3月24日

相关基金

物联网安全搜索技术研究

国家自然科学基金

3+阅读 · 2017年12月31日

支持智能终端通信的物联网管控机制研究

国家自然科学基金

2+阅读 · 2015年12月31日

理性安全两方计算协议设计与安全性证明

国家自然科学基金

0+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

云计算环境信任链系统安全性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

网络空间安全关键技术研究

国家自然科学基金

20+阅读 · 2015年12月31日

基于不完全信息博弈的异构无线网络物理层安全

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

物联网关键技术RFID系统安全测试的仿真架构.评估模型和受攻击模式的研究和实践

国家自然科学基金

2+阅读 · 2014年12月31日

智慧城市数字信息资源安全保障研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员