How can we ensure that AI systems are aligned with human values and remain safe? We can study this problem through the frameworks of the AI assistance and the AI shutdown games. The AI assistance problem concerns designing an AI agent that helps a human to maximise their utility function(s). However, only the human knows these function(s); the AI assistant must learn them. The shutdown problem instead concerns designing AI agents that: shut down when a shutdown button is pressed; neither try to prevent nor cause the pressing of the shutdown button; and otherwise accomplish their task competently. In this paper, we show that addressing these challenges requires AI agents that can reason under uncertainty and handle both incomplete and non-Archimedean preferences.


翻译:如何确保人工智能系统与人类价值观保持一致并保持安全?我们可以通过人工智能辅助与人工智能关机博弈的框架来研究这一问题。人工智能辅助问题涉及设计能够帮助人类最大化其效用函数的人工智能代理。然而,只有人类知晓这些函数;人工智能助手必须学习它们。而关机问题则涉及设计满足以下条件的人工智能代理:当关机按钮被按下时能够关机;既不试图阻止也不引发关机按钮的按下;在其他情况下能够胜任地完成任务。本文中,我们证明解决这些挑战需要人工智能代理具备在不确定性下进行推理的能力,并能处理不完全偏好与非阿基米德偏好。

0
下载
关闭预览

相关内容

确保国防任务中的人工智能安全:多层次方法
专知会员服务
14+阅读 · 1月21日
《人工智能辅助决策面临的三大挑战》最新33页
专知会员服务
52+阅读 · 2025年1月8日
【新书】人工智能与法律:安全使用人工智能的实用指南
《人工智能辅助决策面临的三大挑战》
专知会员服务
85+阅读 · 2023年12月15日
人工智能与国家政治安全
专知会员服务
66+阅读 · 2022年6月29日
专知会员服务
63+阅读 · 2021年7月5日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
人工智能的现状与未来(附PPT)
人工智能学家
76+阅读 · 2019年3月27日
【混合智能】人机混合智能的哲学思考
产业智能官
12+阅读 · 2018年10月28日
人工智能对网络空间安全的影响
走向智能论坛
21+阅读 · 2018年6月7日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Arxiv
0+阅读 · 1月7日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
50+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
10+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员