Current agentic AI architectures are fundamentally incompatible with the security and epistemological requirements of high-stakes scientific workflows. The problem is not inadequate alignment or insufficient guardrails, it is architectural: autoregressive language models process all tokens uniformly, making deterministic command--data separation unattainable through training alone. We argue that deterministic, architectural enforcement, not probabilistic learned behavior, is a necessary condition for trustworthy AI-assisted science. We introduce the Trinity Defense Architecture, which enforces security through three mechanisms: action governance via a finite action calculus with reference-monitor enforcement, information-flow control via mandatory access labels preventing cross-scope leakage, and privilege separation isolating perception from execution. We show that without unforgeable provenance and deterministic mediation, the ``Lethal Trifecta'' (untrusted inputs, privileged data access, external action capability) turns authorization security into an exploit-discovery problem: training-based defenses may reduce empirical attack rates but cannot provide deterministic guarantees. The ML community must recognize that alignment is insufficient for authorization security, and that architectural mediation is required before agentic AI can be safely deployed in consequential scientific domains.


翻译:当前自主人工智能架构从根本上无法满足高风险科学工作流的安全性与认识论要求。问题不在于对齐不足或防护措施不充分,而在于架构层面:自回归语言模型对所有标记进行统一处理,仅通过训练无法实现确定性的指令-数据分离。我们认为确定性的架构强制机制(而非概率性习得行为)是实现可信人工智能辅助科学的必要条件。我们提出三位一体防御架构,通过三种机制实现安全强制:通过有限动作演算与引用监控器执行的动作治理、通过强制访问标签防止跨域泄漏的信息流控制,以及隔离感知与执行的特权分离。我们证明,若无不可伪造的溯源机制与确定性仲裁,“致命三重威胁”(不可信输入、特权数据访问、外部执行能力)将使授权安全沦为漏洞挖掘问题:基于训练的防御或可降低实证攻击率,但无法提供确定性保证。机器学习社区必须认识到,对齐机制不足以保障授权安全,在自主人工智能安全部署于关键科学领域之前,必须建立架构仲裁机制。

0
下载
关闭预览

相关内容

《强大人工智能世界中维护安全:未来国防架构的考量》
专知会员服务
17+阅读 · 2025年11月28日
《人工智能绝不能完全自主》
专知会员服务
28+阅读 · 2025年8月4日
人工智能、模块化开放系统架构和未来无人战争
专知会员服务
83+阅读 · 2024年4月4日
专知会员服务
63+阅读 · 2021年7月5日
《人工智能安全框架(2020年)》白皮书,68页pdf
专知会员服务
167+阅读 · 2021年1月9日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【人机融合智能】人机融合智能的现状与展望
产业智能官
11+阅读 · 2020年3月18日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月11日
Arxiv
0+阅读 · 2月10日
Arxiv
0+阅读 · 1月22日
VIP会员
相关资讯
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
【人机融合智能】人机融合智能的现状与展望
产业智能官
11+阅读 · 2020年3月18日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
面向人工智能的计算机体系结构
计算机研究与发展
14+阅读 · 2019年6月6日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员