The recent leap in AI capabilities, driven by big generative models, has sparked the possibility of achieving Artificial General Intelligence (AGI) and further triggered discussions on Artificial Superintelligence (ASI)-a system surpassing all humans across measured domains. This gives rise to the critical research question of: As we approach ASI, how do we align it with human values, ensuring it benefits rather than harms human society, a.k.a., the Superalignment problem. Despite ASI being regarded by many as a hypothetical concept, in this position paper, we argue that superalignment is achievable and research on it should advance immediately, through simultaneous and alternating optimization of task competence and value conformity. We posit that superalignment is not merely a safeguard for ASI but also necessary for its responsible realization. To support this position, we first provide a formal definition of superalignment rooted in the gap between capability and capacity, delve into its perceived infeasibility by analyzing the limitations of existing paradigms, and then illustrate a conceptual path of superalignment to support its achievability, centered on two fundamental principles. This work frames a potential initiative for developing value-aligned next-generation AI in the future, which will garner greater benefits and reduce potential harm to humanity.


翻译:近期由大型生成模型驱动的AI能力飞跃,已激发实现人工通用智能(AGI)的可能性,并进一步引发关于人工超级智能(ASI)——一种在所有可度量领域超越人类系统的讨论。这催生了一个关键研究问题:当我们接近ASI时,如何使其与人类价值观对齐,确保其造福而非危害人类社会,即超级对齐问题。尽管ASI被许多人视为假设性概念,在本立场论文中,我们认为超级对齐是可实现的,相关研究应通过任务能力与价值一致性的同步交替优化立即推进。我们主张超级对齐不仅是ASI的保障机制,更是其负责任实现的必要条件。为支持这一立场,我们首先基于能力与容量之间的差距给出超级对齐的形式化定义,通过分析现有范式的局限性深入探讨其感知上的不可行性,继而围绕两项基本原则阐述支持其可实现性的超级对齐概念路径。本工作为未来开发价值对齐的下一代AI构建了潜在倡议框架,这将为人类带来更大收益并减少潜在危害。

0
下载
关闭预览

相关内容

通往人工超智能的道路:超级对齐的全面综述
专知会员服务
42+阅读 · 2024年12月24日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
类脑计算的前沿论文,看我们推荐的这7篇
人工智能前沿讲习班
21+阅读 · 2019年1月7日
尽早跑通深度学习的实践代码,是入门深度学习的最快途径
算法与数据结构
22+阅读 · 2017年12月13日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 2月2日
VIP会员
相关VIP内容
通往人工超智能的道路:超级对齐的全面综述
专知会员服务
42+阅读 · 2024年12月24日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
42+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员