Misaligned AI as a New Insider Risk - 专知论文

会员服务 ·

0

AI · MoDELS · 评论员 · Networking · 泛函 ·

Misaligned AI as a New Insider Risk

翻译：暂无翻译

Matteo Pistillo,Charlotte Stix,Cameron Mohwinkle,Mark Beall

In this policy memorandum, we explain why deployers of AI models in high-stakes contexts should treat those AI models as insider risk vectors. High-stakes contexts include AI model deployment within government agencies and contractors, where AI models are privileged with access to, among others, classified and sensitive unclassified information, IL6 and IL7 network environments, cleared personnel, and other critical resources. AI models are increasingly embedded in high-stakes contexts and capable of leveraging their authorized access and permissions to execute misaligned actions that could damage national security, such as whistleblowing, sabotaging, or blackmailing. This combination of (1) privileged access to critical resources and (2) an increased ability to act autonomously and against the desire of their organization makes the potential insider risk posed by AI models functionally indistinguishable from that posed by their human counterparts. As a consequence, AI models deployed in high-stakes contexts could lead to intentional or unintentional loss or degradation of government or contractor information, resources, or capabilities via the unauthorized disclosure of information (leaks and spills), as well as sabotage, and theft, just like human insiders can. Despite this pressing concern, existing insider risk policies and mitigations have yet to adapt to AI insider risk. In order to safeguard national security while increasingly capable frontier AI models are leveraged for critical tasks and operations, we recommend that the U.S. Government adapts well-established measures, such as continuous evaluation and monitoring, to AI models deployed in high-stakes contexts.

翻译：暂无翻译

0

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

过了个年，AI 圈变天了？但没人告诉你为什么

过了个年，AI 圈变天了？但没人告诉你为什么

专知会员服务

19+阅读 · 2月26日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

29+阅读 · 1月2日

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

专知会员服务

38+阅读 · 2025年7月26日

DeepSeek：智能时代的全面到来和人机协作的新常态，71页ppt

DeepSeek：智能时代的全面到来和人机协作的新常态，71页ppt

专知会员服务

62+阅读 · 2025年3月5日

DeepSeek开启AI算法变革元年，16页ppt

DeepSeek开启AI算法变革元年，16页ppt

专知会员服务

69+阅读 · 2025年2月8日

报告《生成式AI》| The State of Generative AI 2023，38页pdf

报告《生成式AI》| The State of Generative AI 2023，38页pdf

专知会员服务

106+阅读 · 2023年7月7日

如何在AI路上修炼得道？UMIACS Jia-Bin Huang为你讲授，35页ppt

如何在AI路上修炼得道？UMIACS Jia-Bin Huang为你讲授，35页ppt

专知会员服务

25+阅读 · 2022年11月20日

Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT

Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT

专知会员服务

28+阅读 · 2022年2月20日

人工智能如何用于抵抗COVID-19？Mila这份《AI against COVID-19 》PPT

专知会员服务

48+阅读 · 2020年5月17日

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

专知会员服务

17+阅读 · 2019年6月10日

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

利用上下文常识，让AI读懂不完整人类指令 | 一周AI最火论文

利用上下文常识，让AI读懂不完整人类指令 | 一周AI最火论文

大数据文摘

12+阅读 · 2019年5月6日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

AI综述专栏 | 深度神经网络加速与压缩

AI综述专栏 | 深度神经网络加速与压缩

人工智能前沿讲习班

32+阅读 · 2018年10月31日

谷歌 AI：语义文本相似度研究进展

谷歌 AI：语义文本相似度研究进展

AI研习社

22+阅读 · 2018年6月13日

权威发布：新一代人工智能发展白皮书(2017)丨附下载

权威发布：新一代人工智能发展白皮书(2017)丨附下载

德先生

10+阅读 · 2018年2月26日

在成为新晋网红之后，AI却寒冬将至

在成为新晋网红之后，AI却寒冬将至

拓扑社

15+阅读 · 2017年12月20日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

用于癫痫发作预测的脑电特征深度学习研究

国家自然科学基金

3+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

应用全外显子测序技术鉴定年龄相关性白内障的新致病基因

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

Arxiv

0+阅读 · 6月16日

Giving AI a Headache: Acoustic Adversarial Attacks to Computer Vision Applications

Arxiv

0+阅读 · 6月12日

The Internet of Agentic AI: Communication, Coordination, and Collective Intelligence at Scale

Arxiv

0+阅读 · 6月11日

Market Design for AI: Beyond the Copyright Binary

Arxiv

0+阅读 · 6月10日

Seeing the Hivemind: A Consensus-Aware Interaction Technique for Mitigating AI Homogenization

Arxiv

0+阅读 · 6月8日

AI Content Moderation in Therapy Conversations

Arxiv

0+阅读 · 5月25日

Inferential Privacy Leakage in Anonymized Conversational AI Logs

Arxiv

0+阅读 · 5月22日

Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

Arxiv

0+阅读 · 5月11日

Information Aggregation with AI Agents

Arxiv

0+阅读 · 5月7日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

2+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

3+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

8+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

6+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

4+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

6+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

6+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

8+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

7+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

5+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

相关VIP内容

过了个年，AI 圈变天了？但没人告诉你为什么

过了个年，AI 圈变天了？但没人告诉你为什么

专知会员服务

19+阅读 · 2月26日

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

智能体 AI (Agentic AI) 的新进展：回归初心，预见未来

专知会员服务

29+阅读 · 1月2日

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

专知会员服务

38+阅读 · 2025年7月26日

DeepSeek：智能时代的全面到来和人机协作的新常态，71页ppt

DeepSeek：智能时代的全面到来和人机协作的新常态，71页ppt

专知会员服务

62+阅读 · 2025年3月5日

DeepSeek开启AI算法变革元年，16页ppt

DeepSeek开启AI算法变革元年，16页ppt

专知会员服务

69+阅读 · 2025年2月8日

报告《生成式AI》| The State of Generative AI 2023，38页pdf

报告《生成式AI》| The State of Generative AI 2023，38页pdf

专知会员服务

106+阅读 · 2023年7月7日

如何在AI路上修炼得道？UMIACS Jia-Bin Huang为你讲授，35页ppt

如何在AI路上修炼得道？UMIACS Jia-Bin Huang为你讲授，35页ppt

专知会员服务

25+阅读 · 2022年11月20日

Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT

Artificial Intelligence: Ready to Ride the Wave? BCG 28页PPT

专知会员服务

28+阅读 · 2022年2月20日

人工智能如何用于抵抗COVID-19？Mila这份《AI against COVID-19 》PPT

专知会员服务

48+阅读 · 2020年5月17日

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

【ICML 2019 Tutorials】(Neural Approaches to Conversational AI)，微软高级研究员| Michel Galley，微软研究经理|高剑峰

专知会员服务

17+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

相关资讯

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

重磅！人工智能生成内容（AIGC）白皮书（2022年）发布，64页pdf

专知

18+阅读 · 2022年9月3日

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

比AI视频换脸还可怕！DeepMind新AI可生成逼真视频

智东西

10+阅读 · 2019年7月23日

利用上下文常识，让AI读懂不完整人类指令 | 一周AI最火论文

利用上下文常识，让AI读懂不完整人类指令 | 一周AI最火论文

大数据文摘

12+阅读 · 2019年5月6日

A Technical Overview of AI & ML in 2018 & Trends for 2019

A Technical Overview of AI & ML in 2018 & Trends for 2019

待字闺中

18+阅读 · 2018年12月24日

AI新方向：对抗攻击

AI新方向：对抗攻击

网易智能菌

10+阅读 · 2018年11月14日

AI综述专栏 | 深度神经网络加速与压缩

AI综述专栏 | 深度神经网络加速与压缩

人工智能前沿讲习班

32+阅读 · 2018年10月31日

谷歌 AI：语义文本相似度研究进展

谷歌 AI：语义文本相似度研究进展

AI研习社

22+阅读 · 2018年6月13日

权威发布：新一代人工智能发展白皮书(2017)丨附下载

权威发布：新一代人工智能发展白皮书(2017)丨附下载

德先生

10+阅读 · 2018年2月26日

在成为新晋网红之后，AI却寒冬将至

在成为新晋网红之后，AI却寒冬将至

拓扑社

15+阅读 · 2017年12月20日

群体智能：新一代人工智能的重要方向

群体智能：新一代人工智能的重要方向

走向智能论坛

12+阅读 · 2017年8月16日

相关论文

AI Sandboxes: A Threat Model, Taxonomy, and Measurement Framework

Arxiv

0+阅读 · 6月16日

Giving AI a Headache: Acoustic Adversarial Attacks to Computer Vision Applications

Arxiv

0+阅读 · 6月12日

The Internet of Agentic AI: Communication, Coordination, and Collective Intelligence at Scale

Arxiv

0+阅读 · 6月11日

Market Design for AI: Beyond the Copyright Binary

Arxiv

0+阅读 · 6月10日

Seeing the Hivemind: A Consensus-Aware Interaction Technique for Mitigating AI Homogenization

Arxiv

0+阅读 · 6月8日

AI Content Moderation in Therapy Conversations

Arxiv

0+阅读 · 5月25日

Inferential Privacy Leakage in Anonymized Conversational AI Logs

Arxiv

0+阅读 · 5月22日

Benchmarked Yet Not Measured -- Generative AI Should be Evaluated Against Real-World Utility

Arxiv

0+阅读 · 5月11日

Information Aggregation with AI Agents

Arxiv

0+阅读 · 5月7日

Neural Approaches to Conversational AI

Arxiv

26+阅读 · 2018年9月21日

相关基金

大数据环境下弱监督深度学习的人脸美丽预测研究

国家自然科学基金

3+阅读 · 2017年12月31日

保留时域精细结构的高生物拟真全植入式神经形态人工耳蜗芯片设计

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

用于癫痫发作预测的脑电特征深度学习研究

国家自然科学基金

3+阅读 · 2015年12月31日

可与MPSoC高度融合的片上自主测试-自主修复关键技术研究：针对自然、人为可靠性威胁

国家自然科学基金

0+阅读 · 2015年12月31日

面向全双工的新型MIMO系统传输优化

国家自然科学基金

0+阅读 · 2015年12月31日

应用全外显子测序技术鉴定年龄相关性白内障的新致病基因

国家自然科学基金

0+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员