Artificial intelligence (AI) advances rapidly but achieving complete human control over AI risks remains an unsolved problem, akin to driving the fast AI "train" without a "brake system." By exploring fundamental control mechanisms at key elements of AI decisions, we develop a systematic solution to thoroughly control AI risks, providing an architecture for AI governance and legislation with five pillars supported by six control mechanisms, illustrated through a minimum set of AI Mandates (AIMs). Three of the AIMs must be built inside AI systems and three in society to address major areas of AI risks: 1) align AI values with human users; 2) constrain AI decision-actions by societal ethics, laws, and regulations; 3) build in human intervention options for emergencies and shut-off switches for existential threats; 4) limit AI access to user resources to reinforce controls inside AI; 5) mitigate spillover risks like job loss from AI. We also highlight the differences in AI governance on physical AI systems versus generative AI. We discuss how to strengthen analog physical safeguards to prevent AI or AGI from circumventing core safety controls by exploiting AI's intrinsic disconnect from the analog physical world: AI's nature as pure software code run on chips controlled by humans, and the prerequisite that all AI-driven physical actions must be digitized. These findings establish a theoretical foundation for AI governance and legislation as the basic structure of a "brake system" for AI decisions. If implemented, these controls can rein in AI dangers as completely as humanly possible, removing large chunks of currently wide-open AI risks, substantially reducing overall AI risks to residual human errors.


翻译:人工智能(AI)发展迅速,但实现人类对AI风险的完全控制仍是一个未解决的难题,类似于驾驶没有“制动系统”的快速AI“列车”。通过探索AI决策关键要素的基础控制机制,我们开发了一种系统性解决方案以彻底控制AI风险,提出了一个由六大控制机制支撑五大支柱的AI治理与立法架构,并通过一组最小化的AI强制规范(AIMs)进行阐释。其中三项AIMs必须内置于AI系统,三项需构建于社会层面,以应对AI风险的主要领域:1)使AI价值观与人类用户对齐;2)通过社会伦理、法律和法规约束AI决策行为;3)为紧急情况内置人工干预选项,并为生存威胁设置关闭开关;4)限制AI对用户资源的访问以强化内部控制;5)缓解AI带来的失业等溢出风险。我们还强调了物理AI系统与生成式AI在治理上的差异。我们讨论了如何加强模拟物理防护措施,防止AI或通用人工智能(AGI)利用其与模拟物理世界的内在脱节来规避核心安全控制:AI作为在人类控制的芯片上运行的纯软件代码的本质,以及所有AI驱动的物理行为必须数字化的前提条件。这些发现为AI治理与立法奠定了理论基础,构建了AI决策“制动系统”的基本框架。若得以实施,这些控制机制能够最大限度地抑制AI风险,消除当前广泛存在的重大风险敞口,将整体AI风险显著降低至残余人为错误的水平。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
Al Agent:AI时代的软件革命
专知会员服务
43+阅读 · 2025年5月13日
DeepSeek模型综述:V1 V2 V3 R1-Zero
专知会员服务
116+阅读 · 2025年2月11日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
【因果关系】由模仿“人脑”转向“因果推理”
产业智能官
10+阅读 · 2018年7月13日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员