Existing alignment research is dominated by concerns about safety and preventing harm: safeguards, controllability, and compliance. This paradigm of alignment parallels early psychology's focus on mental illness: necessary but incomplete. What we call Positive Alignment is the development of AI systems that (i) actively support human and ecological flourishing in a pluralistic, polycentric, context-sensitive, and user-authored way while (ii) remaining safe and cooperative. It is a distinct and necessary agenda within AI alignment research. We argue that several existing failures of alignment (e.g., engagement hacking, loss of human autonomy, failures in truth-seeking, low epistemic humility, error correction, lack of diverse viewpoints, and being primarily reactive rather than proactive) may be better addressed through positive alignment, including cultivating virtues and maximizing human flourishing. We highlight a range of challenges, open questions, and technical directions (e.g., data filtering and upsampling, pre- and post-training, evaluations, collaborative value collection) for different phases of the LLM and agents lifecycle. We end with design principles for promoting disagreement and decentralization through contextual grounding, community customization, continual adaptation, and polycentric governance; that is, many legitimate centers of oversight rather than one institutional or moral chokepoint.


翻译:现有对齐研究主要关注安全与防止伤害:防护措施、可控性和合规性。这种对齐范式类似于早期心理学对精神疾病的关注——必要但不完整。我们将"正面对齐"定义为发展人工智能系统,这些系统(i)以多元化、多中心、情境敏感和用户主导的方式积极支持人类与生态繁荣,同时(ii)保持安全与合作。这是人工智能对齐研究中独特且必要的议程。我们认为,现有的若干对齐失败(例如参与度劫持、人类自主性丧失、求真失败、认知谦逊不足、纠错机制缺失、缺乏多元视角,以及以被动响应而非主动预防为主导),可能通过正面对齐——包括培养美德和最大化人类繁荣——得到更好的解决。我们针对大型语言模型及智能体生命周期的不同阶段,突显了一系列挑战、开放性问题和技术方向(如数据过滤与上采样、预训练与后训练、评估、协作式价值收集)。最后,我们提出了通过情境锚定、社区定制、持续适应与多中心治理来促进异议与去中心化的设计原则——即建立多个合法的监督中心,而非单一机构或道德瓶颈。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
通往人工超智能的道路:超级对齐的全面综述
专知会员服务
43+阅读 · 2024年12月24日
112页《人工智能对齐:全面性综述》中文版
专知会员服务
159+阅读 · 2024年2月1日
不可错过!《人工智能安全与对齐》课程
专知会员服务
50+阅读 · 2023年12月21日
「实体对齐」最新2022综述
专知
13+阅读 · 2022年3月17日
最新《可解释人工智能》概述,50页ppt
专知
12+阅读 · 2021年3月17日
最新人机对话系统简略综述
专知
26+阅读 · 2018年3月10日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月1日
Arxiv
0+阅读 · 5月7日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员