STAMP/STPA Informed Characterization of Factors Leading to Loss of Control in AI Systems - 专知论文

会员服务 ·

0

系统 · AI · 分析 · 结构 · AI系统 ·

STAMP/STPA Informed Characterization of Factors Leading to Loss of Control in AI Systems

翻译：基于STAMP/STPA的AI系统失控致因特征化分析

Steve Barrett,Anna Bruvere,Sean P. Fillingham,Catherine Rhodes,Stefano Vergani

from arxiv, This new version only corrects some typos

A major concern amongst AI safety practitioners is the possibility of loss of control, whereby humans lose the ability to exert control over increasingly advanced AI systems. The range of concerns is wide, spanning current day risks to future existential risks, and a range of loss of control pathways from rapid AI self-exfiltration scenarios to more gradual disempowerment scenarios. In this work we set out to firstly, provide a more structured framework for discussing and characterizing loss of control and secondly, to use this framework to assist those responsible for the safe operation of AI-containing socio-technical systems to identify causal factors leading to loss of control. We explore how these two needs can be better met by making use of a methodology developed within the safety-critical systems community known as STAMP and its associated hazard analysis technique of STPA. We select the STAMP methodology primarily because it is based around a world-view that socio-technical systems can be functionally modeled as control structures, and that safety issues arise when there is a loss of control in these structures.

翻译：人工智能安全从业者的一个主要担忧是失控的可能性，即人类逐渐丧失对日益先进的人工智能系统施加控制的能力。相关担忧的范围很广，既涵盖当前风险，也涉及未来存在的风险，其失控路径既包括AI快速自我渗透的突发情境，也包含权力逐渐被剥夺的渐进情境。本研究的首要目标是提供一个更结构化的框架，用于讨论和刻画失控现象；其次，旨在利用该框架协助负责含AI的社会技术系统安全运行的人员识别导致失控的因果因素。我们探讨如何通过采用安全关键系统领域开发的方法论——STAMP及其相关的危险分析技术STPA——来更好地满足这两方面需求。选择STAMP方法论的主要依据在于：其世界观认为社会技术系统可在功能上建模为控制结构，而安全问题正源于这些结构中控制力的丧失。

0

相关内容

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

36+阅读 · 2025年9月16日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

20+阅读 · 2025年1月20日

《评估人工智能的风险和影响（ARIA》美国国家标准与技术研究院最新报告

《评估人工智能的风险和影响（ARIA》美国国家标准与技术研究院最新报告

专知会员服务

23+阅读 · 2025年1月6日

中国信通院发布《人工智能风险治理报告（2024年）》

中国信通院发布《人工智能风险治理报告（2024年）》

专知会员服务

49+阅读 · 2024年12月26日

《人工智能灾难性风险概述》2023最新55页报告

《人工智能灾难性风险概述》2023最新55页报告

专知会员服务

70+阅读 · 2023年10月6日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

49+阅读 · 2023年7月23日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

106+阅读 · 2023年2月19日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

99+阅读 · 2022年1月30日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

108+阅读 · 2021年10月6日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

79+阅读 · 2021年3月31日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【干货分享】AIOps之根因分析

【干货分享】AIOps之根因分析

腾讯大讲堂

11+阅读 · 2018年4月10日

计及多重-复合不确定性的电力系统稳定约束优化调度研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

通过分析LOH探究智力障碍的致病基因变异

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

Secure human oversight of AI: Threat modeling in a socio-technical context

Arxiv

0+阅读 · 3月5日

The Controllability Trap: A Governance Framework for Military AI Agents

Arxiv

0+阅读 · 3月3日

Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

Arxiv

0+阅读 · 3月2日

Competition for attention predicts good-to-bad tipping in AI

Arxiv

0+阅读 · 2月23日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月18日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

Mitigating loss of control in advanced AI systems through instrumental goal trajectories

Arxiv

0+阅读 · 2月2日

Incorporating AI incident reporting into telecommunications law and policy: Insights from India

Arxiv

0+阅读 · 2月1日

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

7+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

8+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

2+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

4+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

6+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

5+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

7+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

6+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

8+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

6+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

8+阅读 · 7月20日

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

综述 | 终身视觉表征：持续自监督学习CSSL系统综述

专知会员服务

8+阅读 · 7月20日

深入Project Maven：为何人工智能在战场上依然失灵

深入Project Maven：为何人工智能在战场上依然失灵

专知会员服务

15+阅读 · 7月19日

锻造未来士兵：外骨骼、基因工程与赛博格

锻造未来士兵：外骨骼、基因工程与赛博格

专知会员服务

7+阅读 · 7月19日

《无人机系统（UAS）通信网状网络试验性部署》50页报告

《无人机系统（UAS）通信网状网络试验性部署》50页报告

专知会员服务

10+阅读 · 7月19日

相关VIP内容

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

【牛津大学博士论文】迈向可信 AI：从局部可解释性到因果理解

专知会员服务

36+阅读 · 2025年9月16日

机密计算保障人工智能系统安全研究报告

机密计算保障人工智能系统安全研究报告

专知会员服务

20+阅读 · 2025年1月20日

《评估人工智能的风险和影响（ARIA》美国国家标准与技术研究院最新报告

《评估人工智能的风险和影响（ARIA》美国国家标准与技术研究院最新报告

专知会员服务

23+阅读 · 2025年1月6日

中国信通院发布《人工智能风险治理报告（2024年）》

中国信通院发布《人工智能风险治理报告（2024年）》

专知会员服务

49+阅读 · 2024年12月26日

《人工智能灾难性风险概述》2023最新55页报告

《人工智能灾难性风险概述》2023最新55页报告

专知会员服务

70+阅读 · 2023年10月6日

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

【普林斯顿博士论文】生成式人工智能的承诺与陷阱：以AI安全为中心的方法

专知会员服务

49+阅读 · 2023年7月23日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

106+阅读 · 2023年2月19日

人工智能系统可信性度量评估研究综述

人工智能系统可信性度量评估研究综述

专知会员服务

99+阅读 · 2022年1月30日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

108+阅读 · 2021年10月6日

人工智能模型数据泄露的攻击与防御研究综述

人工智能模型数据泄露的攻击与防御研究综述

专知会员服务

79+阅读 · 2021年3月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

《无人机对海面作战影响评估》

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

40+阅读 · 2022年10月19日

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

推荐！《关于美国海军陆战队情报工作的人工智能（AI）战略和设计》美国海军研究生院131页报告

专知

62+阅读 · 2022年9月7日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

94+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

用深度学习揭示数据的因果关系

用深度学习揭示数据的因果关系

专知

28+阅读 · 2019年5月18日

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

【人工智能】【智能驾驶】人工智能在汽车自动驾驶系统中的应用分析

产业智能官

18+阅读 · 2018年11月22日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

【干货分享】AIOps之根因分析

【干货分享】AIOps之根因分析

腾讯大讲堂

11+阅读 · 2018年4月10日

相关论文

Secure human oversight of AI: Threat modeling in a socio-technical context

Arxiv

0+阅读 · 3月5日

The Controllability Trap: A Governance Framework for Military AI Agents

Arxiv

0+阅读 · 3月3日

Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols

Arxiv

0+阅读 · 3月2日

Competition for attention predicts good-to-bad tipping in AI

Arxiv

0+阅读 · 2月23日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月18日

Agentic AI for Cybersecurity: A Meta-Cognitive Architecture for Governable Autonomy

Arxiv

1+阅读 · 2月12日

CausalArmor: Efficient Indirect Prompt Injection Guardrails via Causal Attribution

Arxiv

0+阅读 · 2月8日

Mitigating loss of control in advanced AI systems through instrumental goal trajectories

Arxiv

0+阅读 · 2月2日

Incorporating AI incident reporting into telecommunications law and policy: Insights from India

Arxiv

0+阅读 · 2月1日

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Arxiv

0+阅读 · 1月30日

相关基金

计及多重-复合不确定性的电力系统稳定约束优化调度研究

国家自然科学基金

1+阅读 · 2016年12月31日

基于子模优化的远程预警传感器管理研究

国家自然科学基金

2+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

面向有源配电网的数据传输优化及智能过滤机制

国家自然科学基金

0+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

网络安全威胁踪源分析方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

通过分析LOH探究智力障碍的致病基因变异

国家自然科学基金

0+阅读 · 2015年12月31日

支持软件可信演化的故障定位研究

国家自然科学基金

0+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员