Secure human oversight of AI: Threat modeling in a socio-technical context - 专知论文

会员服务 ·

0

监督 · AI · 系统 · 社会技术 · 攻击 ·

Secure human oversight of AI: Threat modeling in a socio-technical context

翻译：AI安全中的人类监督：社会技术背景下的威胁建模

Jonas C. Ditz,Veronika Lazar,Elmar Lichtmeß,Carola Plesch,Matthias Heck,Kevin Baum,Markus Langer

Human oversight of AI is promoted as a safeguard against risks such as inaccurate outputs, system malfunctions, or violations of fundamental rights, and is mandated in regulation like the European AI Act. Yet debates on human oversight have largely focused on its effectiveness, while overlooking a critical dimension: the security of human oversight. We argue that human oversight creates a new attack surface within the safety, security, and accountability architecture of AI operations. Drawing on cybersecurity perspectives, we model human oversight as an IT application for the purpose of systematic threat modeling of the human oversight process. Threat modeling allows us to identify security risks within human oversight and points towards possible mitigation strategies. Our contributions are: (1) introducing a security perspective on human oversight, (2) offering researchers and practitioners guidance on how to approach their human oversight applications from a security point of view, and (3) providing a systematic overview of attack vectors and hardening strategies to enable secure human oversight of AI.

翻译：AI的人类监督被提倡作为防范风险（如输出不准确、系统故障或侵犯基本权利）的保障措施，并在《欧洲人工智能法案》等法规中被强制要求。然而，关于人类监督的讨论大多聚焦于其有效性，而忽视了一个关键维度：人类监督的安全性。我们认为，人类监督在AI运行的安全、安保与问责架构中创造了一个新的攻击面。借鉴网络安全视角，我们将人类监督建模为一个IT应用，以便对人类监督过程进行系统性的威胁建模。威胁建模使我们能够识别人类监督中的安全风险，并指向可能的缓解策略。我们的贡献包括：（1）引入人类监督的安全视角，（2）为研究人员和从业者提供如何从安全角度处理其人类监督应用的指导，以及（3）系统性地概述攻击向量与加固策略，以实现AI的安全人类监督。

0

相关内容

人工智能治理的未来

人工智能治理的未来

专知会员服务

30+阅读 · 2025年8月3日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

21+阅读 · 2025年3月20日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

44+阅读 · 2024年5月27日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

如何对AI进行监管？人工智能伦理与大规模ML, Jean-Gabriel Ganascia, 41页ppt

如何对AI进行监管？人工智能伦理与大规模ML, Jean-Gabriel Ganascia, 41页ppt

专知会员服务

30+阅读 · 2022年12月3日

【AI与警务】人工智能在打击组织性犯罪方面的挑战

【AI与警务】人工智能在打击组织性犯罪方面的挑战

专知会员服务

24+阅读 · 2022年6月28日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

190+阅读 · 2022年4月15日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

87+阅读 · 2022年7月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

74+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

An AI Agent Execution Environment to Safeguard User Data

Arxiv

0+阅读 · 4月21日

Reciprocal Trust and Distrust in Artificial Intelligence Systems: The Hard Problem of Regulation

Arxiv

0+阅读 · 4月7日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

The Competence Shadow: Theory and Bounds of AI Assistance in Safety Engineering

Arxiv

0+阅读 · 3月27日

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Arxiv

0+阅读 · 3月25日

Security Barriers to Trustworthy AI-Driven Cyber Threat Intelligence in Finance: Evidence from Practitioners

Arxiv

0+阅读 · 3月24日

From the AI Act to a European AI Agency: Completing the Union's Regulatory Architecture

Arxiv

0+阅读 · 3月24日

Security, privacy, and agentic AI in a regulatory view: From definitions and distinctions to provisions and reflections

Arxiv

0+阅读 · 3月19日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月27日

Towards Scalable Oversight via Partitioned Human Supervision

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

5+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

4+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

人工智能治理的未来

人工智能治理的未来

专知会员服务

30+阅读 · 2025年8月3日

人工智能如何增强军事监控与边境安全

人工智能如何增强军事监控与边境安全

专知会员服务

21+阅读 · 2025年3月20日

AI智能体面临的威胁：关键安全挑战与未来路径综述

AI智能体面临的威胁：关键安全挑战与未来路径综述

专知会员服务

53+阅读 · 2024年6月7日

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

《人类-人工智能安全：生成式人工智能和控制系统安全的后继者》

专知会员服务

44+阅读 · 2024年5月27日

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

人工智能的安全性，公平性，可问责性，透明度，一致性，77页ppt

专知会员服务

51+阅读 · 2023年5月1日

如何对AI进行监管？人工智能伦理与大规模ML, Jean-Gabriel Ganascia, 41页ppt

如何对AI进行监管？人工智能伦理与大规模ML, Jean-Gabriel Ganascia, 41页ppt

专知会员服务

30+阅读 · 2022年12月3日

【AI与警务】人工智能在打击组织性犯罪方面的挑战

【AI与警务】人工智能在打击组织性犯罪方面的挑战

专知会员服务

24+阅读 · 2022年6月28日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知会员服务

190+阅读 · 2022年4月15日

人工智能安全框架

专知会员服务

64+阅读 · 2021年7月5日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

推荐！【中文版】《人工智能在军事应用中的可能性和挑战》瑞典国防研究局16页报告

专知

87+阅读 · 2022年7月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

74+阅读 · 2022年6月30日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

打开人工智能黑箱:看最新16篇可解释深度学习文章，带您了解增强AI透明性

专知

144+阅读 · 2019年1月13日

人工智能对网络空间安全的影响

人工智能对网络空间安全的影响

走向智能论坛

21+阅读 · 2018年6月7日

相关论文

An AI Agent Execution Environment to Safeguard User Data

Arxiv

0+阅读 · 4月21日

Reciprocal Trust and Distrust in Artificial Intelligence Systems: The Hard Problem of Regulation

Arxiv

0+阅读 · 4月7日

Architecting Secure AI Agents: Perspectives on System-Level Defenses Against Indirect Prompt Injection Attacks

Arxiv

0+阅读 · 3月31日

The Competence Shadow: Theory and Bounds of AI Assistance in Safety Engineering

Arxiv

0+阅读 · 3月27日

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Arxiv

0+阅读 · 3月25日

Security Barriers to Trustworthy AI-Driven Cyber Threat Intelligence in Finance: Evidence from Practitioners

Arxiv

0+阅读 · 3月24日

From the AI Act to a European AI Agency: Completing the Union's Regulatory Architecture

Arxiv

0+阅读 · 3月24日

Security, privacy, and agentic AI in a regulatory view: From definitions and distinctions to provisions and reflections

Arxiv

0+阅读 · 3月19日

ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI

Arxiv

0+阅读 · 2月27日

Towards Scalable Oversight via Partitioned Human Supervision

Arxiv

0+阅读 · 2月24日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

基于深度学习的复杂场景下人体行为识别研究

国家自然科学基金

9+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于海量软件片段比对的恶意代码检测方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于深度表达和迁移学习的人体检测研究

国家自然科学基金

6+阅读 · 2015年12月31日

基于集成流形学习的监控视频中人体行为识别研究

国家自然科学基金

3+阅读 · 2014年12月31日

复杂需求场景驱动的软件安全防护模型检测技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于自适应模型检测的安全协议自动建模与设计研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向生物威胁快速反应的大数据分析关键技术

国家自然科学基金

0+阅读 · 2014年12月31日

一种新型的基于行人检测与行走方向识别的辅助驾驶安全系统的设计与开发

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员