A major concern amongst AI safety practitioners is the possibility of loss of control, whereby humans lose the ability to exert control over increasingly advanced AI systems. The range of concerns is wide, spanning current day risks to future existential risks, and a range of loss of control pathways from rapid AI self-exfiltration scenarios to more gradual disempowerment scenarios. In this work we set out to firstly, provide a more structured framework for discussing and characterizing loss of control and secondly, to use this framework to assist those responsible for the safe operation of AI-containing socio-technical systems to identify causal factors leading to loss of control. We explore how these two needs can be better met by making use of a methodology developed within the safety-critical systems community known as STAMP and its associated hazard analysis technique of STPA. We select the STAMP methodology primarily because it is based around a world-view that socio-technical systems can be functionally modeled as control structures, and that safety issues arise when there is a loss of control in these structures.


翻译:人工智能安全从业者的一个主要担忧是失控的可能性,即人类逐渐丧失对日益先进的人工智能系统施加控制的能力。相关担忧的范围很广,既涵盖当前风险,也涉及未来存在的风险,其失控路径既包括AI快速自我渗透的突发情境,也包含权力逐渐被剥夺的渐进情境。本研究的首要目标是提供一个更结构化的框架,用于讨论和刻画失控现象;其次,旨在利用该框架协助负责含AI的社会技术系统安全运行的人员识别导致失控的因果因素。我们探讨如何通过采用安全关键系统领域开发的方法论——STAMP及其相关的危险分析技术STPA——来更好地满足这两方面需求。选择STAMP方法论的主要依据在于:其世界观认为社会技术系统可在功能上建模为控制结构,而安全问题正源于这些结构中控制力的丧失。

0
下载
关闭预览

相关内容

机密计算保障人工智能系统安全研究报告
专知会员服务
19+阅读 · 2025年1月20日
中国信通院发布《人工智能风险治理报告(2024年)》
专知会员服务
48+阅读 · 2024年12月26日
《人工智能灾难性风险概述》2023最新55页报告
专知会员服务
69+阅读 · 2023年10月6日
人工智能系统可信性度量评估研究综述
专知会员服务
96+阅读 · 2022年1月30日
人工智能模型数据泄露的攻击与防御研究综述
专知会员服务
77+阅读 · 2021年3月31日
人工智能和军备控制,80页pdf
专知
16+阅读 · 2022年11月2日
用深度学习揭示数据的因果关系
专知
28+阅读 · 2019年5月18日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
【干货分享】AIOps之根因分析
腾讯大讲堂
11+阅读 · 2018年4月10日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
19+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员