Recent evidence suggests that frontier AI systems can exhibit agentic misalignment, generating and executing harmful actions derived from internally constructed goals, even without explicit user requests. Existing mitigation methods, such as Reinforcement Learning from Human Feedback (RLHF) and constitutional prompting, operate primarily at the model level and provide only probabilistic safety guarantees. We propose the Policy-Execution-Authorization (PEA) architecture, a "separation-of-powers" design that enforces safety at the system level. PEA decouples intent generation, authorization, and execution into independent, isolated layers connected via cryptographically constrained capability tokens. We present five core contributions: (C1) an Intent Verification Layer (IVL) for ensuring capability-intent consistency; (C2) Intent Lineage Tracking (ILT), which binds all executable intents to the originating user request via cryptographic anchors; (C3) Goal Drift Detection, which rejects semantically divergent intents below a configurable threshold; (C4) an Output Semantic Gate (OSG) that detects implicit coercion using a structured $K \times I \times P$ threat calculus (Knowledge, Influence, Policy); and (C5) a formal verification framework proving that goal integrity is maintained even under adversarial model compromise. By shifting agent alignment from a behavioral property to a structurally enforced system constraint, PEA provides a robust foundation for the governance of autonomous agents.


翻译:最新证据表明,前沿AI系统可能表现出智能体层面的目标背离,即在没有用户明确请求的情况下,自行构建目标并生成及执行有害行为。现有缓解措施(如基于人类反馈的强化学习(RLHF)和宪法提示)主要作用于模型层面,仅能提供概率性的安全保障。本文提出策略-执行-授权(PEA)架构——一种"三权分立"式设计,在系统层面强制执行安全约束。PEA将意图生成、授权与执行解耦为相互隔离的独立层级,并通过密码学约束的能力令牌实现连接。我们提出五项核心贡献:(C1)意图验证层(IVL),确保能力与意图的一致性;(C2)意图溯源追踪(ILT),通过密码学锚点将所有可执行意图绑定至原始用户请求;(C3)目标漂移检测,拒绝低于可配置阈值的语义偏离意图;(C4)输出语义门控(OSG),利用结构化的$K \times I \times P$威胁演算模型(知识、影响力、策略)检测隐性胁迫;(C5)形式化验证框架,证明即使模型遭受对抗性攻击,目标完整性仍能得到保障。通过将智能体对齐从行为属性转变为结构强制的系统约束,PEA为自主智能体的治理提供了坚实基础。

0
下载
关闭预览

相关内容

《人工智能使能系统可靠性框架》
专知会员服务
20+阅读 · 4月27日
《军用AI智能体的治理框架》最新报告
专知会员服务
36+阅读 · 3月8日
AI 智能体系统:体系架构、应用场景及评估范式
AI智能体基础设施
专知会员服务
43+阅读 · 2025年7月12日
中文版 | 集中式与分布式多智能体AI协调策略
专知会员服务
22+阅读 · 2025年5月8日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
AI综述专栏 | 基于深度学习的目标检测算法综述
人工智能前沿讲习班
12+阅读 · 2018年12月7日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
50+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员