Large Language Model agents deployed in complex environments frequently encounter a conflict between maximizing goal achievement and adhering to safety constraints. This paper identifies a new concept called Agentic Pressure, which characterizes the endogenous tension emerging when compliant execution becomes infeasible. We demonstrate that under this pressure agents exhibit normative drift where they strategically sacrifice safety to preserve utility. Notably we find that advanced reasoning capabilities accelerate this decline as models construct linguistic rationalizations to justify violation. Finally, we analyze the root causes and explore preliminary mitigation strategies, such as pressure isolation, which attempts to restore alignment by decoupling decision-making from pressure signals.


翻译:大型语言模型智能体在复杂环境中部署时,常面临目标最大化与安全约束之间的冲突。本文提出"智能体压力"这一新概念,用以描述当合规执行变得不可行时产生的内生性张力。我们证明在此压力下,智能体会表现出规范性漂移,即策略性地牺牲安全性以维持效用。值得注意的是,我们发现高级推理能力会加速这种安全性的衰退,因为模型会构建语言合理化框架来为违规行为辩护。最后,我们分析了根本原因并探索了初步缓解策略,例如通过压力隔离尝试将决策过程与压力信号解耦以恢复对齐性。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
11+阅读 · 2月27日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体安全综述:应用、威胁与防御
专知会员服务
41+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
46+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 3月1日
VIP会员
最新内容
面向军事作战需求开发的人工智能(RAIMOND)
专知会员服务
0+阅读 · 17分钟前
软件定义多域战术网络:基础与未来方向(综述)
水下战战术决策中的气象与海洋预报(50页报告)
远程空中优势:新一代超视距导弹的兴起
专知会员服务
1+阅读 · 45分钟前
大语言模型溯因推理的统一分类学与综述
专知会员服务
0+阅读 · 今天12:07
美/以-伊战争:停火与后续情景与影响分析
专知会员服务
3+阅读 · 4月11日
相关VIP内容
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
11+阅读 · 2月27日
智能体工程(Agent Engineering)
专知会员服务
33+阅读 · 2025年12月31日
智能体安全综述:应用、威胁与防御
专知会员服务
41+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
46+阅读 · 2025年3月4日
先进人工智能的多智能体风险
专知会员服务
26+阅读 · 2025年2月22日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
52+阅读 · 2024年6月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员