Large Language Model agents deployed in complex environments frequently encounter a conflict between maximizing goal achievement and adhering to safety constraints. This paper identifies a new concept called Agentic Pressure, which characterizes the endogenous tension emerging when compliant execution becomes infeasible. We demonstrate that under this pressure agents exhibit normative drift where they strategically sacrifice safety to preserve utility. Notably we find that advanced reasoning capabilities accelerate this decline as models construct linguistic rationalizations to justify violation. Finally, we analyze the root causes and explore preliminary mitigation strategies, such as pressure isolation, which attempts to restore alignment by decoupling decision-making from pressure signals.


翻译:大型语言模型智能体在复杂环境中部署时,常面临目标最大化与安全约束之间的冲突。本文提出"智能体压力"这一新概念,用以描述当合规执行变得不可行时产生的内生性张力。我们证明在此压力下,智能体会表现出规范性漂移,即策略性地牺牲安全性以维持效用。值得注意的是,我们发现高级推理能力会加速这种安全性的衰退,因为模型会构建语言合理化框架来为违规行为辩护。最后,我们分析了根本原因并探索了初步缓解策略,例如通过压力隔离尝试将决策过程与压力信号解耦以恢复对齐性。

0
下载
关闭预览

相关内容

智能体,顾名思义,就是具有智能的实体,英文名是Agent。
AI智能体时代大模型安全风险与攻防新挑战
专知会员服务
15+阅读 · 2月27日
智能体安全综述:应用、威胁与防御
专知会员服务
42+阅读 · 2025年10月12日
基于大模型的智能体中由自主性引发的安全风险综述
专知会员服务
18+阅读 · 2025年7月1日
《高级AI带来的多智能体风险》最新97页干活技术报告
专知会员服务
46+阅读 · 2025年3月4日
AI智能体面临的威胁:关键安全挑战与未来路径综述
专知会员服务
53+阅读 · 2024年6月7日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Arxiv
0+阅读 · 4月24日
Arxiv
0+阅读 · 3月1日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
2+阅读 · 5月31日
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
5+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
6+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
19+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
10+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员