研究超级对齐应通过交替优化能力与一致性即刻推进 (Research Superalignment Should Advance Now with Alternating Competence and Conformity Optimization) - 专知论文

会员服务 ·

0

对齐 · 超级对齐 · 一致 · AI · 潜在 ·

Research Superalignment Should Advance Now with Alternating Competence and Conformity Optimization

翻译：研究超级对齐应通过交替优化能力与一致性即刻推进

HyunJin Kim,Xiaoyuan Yi,Jing Yao,Muhua Huang,JinYeong Bak,James Evans,Xing Xie

The recent leap in AI capabilities, driven by big generative models, has sparked the possibility of achieving Artificial General Intelligence (AGI) and further triggered discussions on Artificial Superintelligence (ASI)-a system surpassing all humans across measured domains. This gives rise to the critical research question of: As we approach ASI, how do we align it with human values, ensuring it benefits rather than harms human society, a.k.a., the Superalignment problem. Despite ASI being regarded by many as a hypothetical concept, in this position paper, we argue that superalignment is achievable and research on it should advance immediately, through simultaneous and alternating optimization of task competence and value conformity. We posit that superalignment is not merely a safeguard for ASI but also necessary for its responsible realization. To support this position, we first provide a formal definition of superalignment rooted in the gap between capability and capacity, delve into its perceived infeasibility by analyzing the limitations of existing paradigms, and then illustrate a conceptual path of superalignment to support its achievability, centered on two fundamental principles. This work frames a potential initiative for developing value-aligned next-generation AI in the future, which will garner greater benefits and reduce potential harm to humanity.

翻译：近期由大型生成模型驱动的AI能力飞跃，已激发实现人工通用智能（AGI）的可能性，并进一步引发关于人工超级智能（ASI）——一种在所有可度量领域超越人类系统的讨论。这催生了一个关键研究问题：当我们接近ASI时，如何使其与人类价值观对齐，确保其造福而非危害人类社会，即超级对齐问题。尽管ASI被许多人视为假设性概念，在本立场论文中，我们认为超级对齐是可实现的，相关研究应通过任务能力与价值一致性的同步交替优化立即推进。我们主张超级对齐不仅是ASI的保障机制，更是其负责任实现的必要条件。为支持这一立场，我们首先基于能力与容量之间的差距给出超级对齐的形式化定义，通过分析现有范式的局限性深入探讨其感知上的不可行性，继而围绕两项基本原则阐述支持其可实现性的超级对齐概念路径。本工作为未来开发价值对齐的下一代AI构建了潜在倡议框架，这将为人类带来更大收益并减少潜在危害。

0

相关内容

【CMU博士论文】面向求真、复杂推理与人类价值的大规模语言模型可扩展对齐

【CMU博士论文】面向求真、复杂推理与人类价值的大规模语言模型可扩展对齐

专知会员服务

16+阅读 · 2025年5月4日

通往人工超智能的道路：超级对齐的全面综述

通往人工超智能的道路：超级对齐的全面综述

专知会员服务

43+阅读 · 2024年12月24日

《利用机器学习和专家系统技术开发自适应多域人工智能系统》最新77页

《利用机器学习和专家系统技术开发自适应多域人工智能系统》最新77页

专知会员服务

40+阅读 · 2024年7月6日

我们离AGI有多远？UIUC最新120页论文阐述AGI定义、目标和发展轨迹

我们离AGI有多远？UIUC最新120页论文阐述AGI定义、目标和发展轨迹

专知会员服务

50+阅读 · 2024年5月17日

【博士论文】深度学习时代的概率机器学习：高斯过程、贝叶斯优化以及更多新视角

【博士论文】深度学习时代的概率机器学习：高斯过程、贝叶斯优化以及更多新视角

专知会员服务

62+阅读 · 2024年1月24日

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

专知会员服务

53+阅读 · 2023年12月15日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

89+阅读 · 2023年4月22日

《奇点竞赛：作为军事革命的超级人工智能》美国陆军2022最新149页论文

《奇点竞赛：作为军事革命的超级人工智能》美国陆军2022最新149页论文

专知会员服务

71+阅读 · 2022年12月29日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

【强化学习】变革尚未成功：深度强化学习研究的短期悲观与长期乐观

【强化学习】变革尚未成功：深度强化学习研究的短期悲观与长期乐观

产业智能官

10+阅读 · 2018年3月24日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于电动汽车的交通系统和电力系统的融合、均衡与优化

国家自然科学基金

2+阅读 · 2014年12月31日

基于图与超图的匹配中的若干问题的研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于超导电路混合装置的量子信息处理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

Beyond-Diagonal RIS Architecture Design and Optimization under Physics-Consistent Models

Arxiv

0+阅读 · 3月15日

A Multi-Objective Optimization Approach for Sustainable AI-Driven Entrepreneurship in Resilient Economies

Arxiv

0+阅读 · 3月9日

Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration

Arxiv

0+阅读 · 2月23日

Toward Human-Centered Human-AI Interaction: Advances in Theoretical Frameworks and Practice

Arxiv

1+阅读 · 2月18日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

Towards Autonomous Mathematics Research

Arxiv

0+阅读 · 2月12日

Can Complexity and Uncomputability Explain Intelligence? SuperARC: A Test for Artificial Super Intelligence Based on Recursive Compression

Arxiv

0+阅读 · 2月11日

Bidirectional human-AI collaboration in brain tumour assessments improves both expert human and AI agent performance

Arxiv

0+阅读 · 2月7日

Emergent Alignment via Competition

Arxiv

0+阅读 · 2月2日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

专知会员服务

4+阅读 · 4月15日

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

专知会员服务

2+阅读 · 4月15日

美陆军设想无人系统司令部

美陆军设想无人系统司令部

专知会员服务

2+阅读 · 4月15日

【博士论文】已对齐人工智能系统的持久脆弱性

【博士论文】已对齐人工智能系统的持久脆弱性

专知会员服务

0+阅读 · 4月15日

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

人工智能对指挥控制的加速及其对陆军的影响（中文报告）

专知会员服务

3+阅读 · 4月15日

扭曲还是编造？视频大语言模型幻觉研究综述

扭曲还是编造？视频大语言模型幻觉研究综述

专知会员服务

0+阅读 · 4月15日

美欧最新（2026）反无人机系统选项、技术与获取一览

美欧最新（2026）反无人机系统选项、技术与获取一览

专知会员服务

3+阅读 · 4月15日

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

《大语言模型作为战术规划支持工具——来自两项应用研究的结论》2026最新100页报告

专知会员服务

2+阅读 · 4月15日

《采用系统思维应对混合战争》125页

《采用系统思维应对混合战争》125页

专知会员服务

3+阅读 · 4月15日

战争机器学习：数据生态系统构建（155页）

战争机器学习：数据生态系统构建（155页）

专知会员服务

7+阅读 · 4月15日

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

乌克兰军事人工智能助手：NeoLens军事装备人工智能辅助维护平台

专知会员服务

2+阅读 · 4月15日

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

2026 年 Agentic AI 工程师完全指南：一份系统化的学习路线图

专知会员服务

15+阅读 · 4月14日

内省扩散语言模型

内省扩散语言模型

专知会员服务

6+阅读 · 4月14日

美伊停火协议：评估、各方反应及美国会面临的问题

美伊停火协议：评估、各方反应及美国会面临的问题

专知会员服务

4+阅读 · 4月14日

国外反无人机系统与技术动态

国外反无人机系统与技术动态

专知会员服务

4+阅读 · 4月14日

相关VIP内容

【CMU博士论文】面向求真、复杂推理与人类价值的大规模语言模型可扩展对齐

【CMU博士论文】面向求真、复杂推理与人类价值的大规模语言模型可扩展对齐

专知会员服务

16+阅读 · 2025年5月4日

通往人工超智能的道路：超级对齐的全面综述

通往人工超智能的道路：超级对齐的全面综述

专知会员服务

43+阅读 · 2024年12月24日

《利用机器学习和专家系统技术开发自适应多域人工智能系统》最新77页

《利用机器学习和专家系统技术开发自适应多域人工智能系统》最新77页

专知会员服务

40+阅读 · 2024年7月6日

我们离AGI有多远？UIUC最新120页论文阐述AGI定义、目标和发展轨迹

我们离AGI有多远？UIUC最新120页论文阐述AGI定义、目标和发展轨迹

专知会员服务

50+阅读 · 2024年5月17日

【博士论文】深度学习时代的概率机器学习：高斯过程、贝叶斯优化以及更多新视角

【博士论文】深度学习时代的概率机器学习：高斯过程、贝叶斯优化以及更多新视角

专知会员服务

62+阅读 · 2024年1月24日

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

Ilya带头OpenAI超级对齐首篇论文《弱到强的泛化:在弱监督下获得强能力》，AI对齐AI取得实证结果

专知会员服务

53+阅读 · 2023年12月15日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

89+阅读 · 2023年4月22日

《奇点竞赛：作为军事革命的超级人工智能》美国陆军2022最新149页论文

《奇点竞赛：作为军事革命的超级人工智能》美国陆军2022最新149页论文

专知会员服务

71+阅读 · 2022年12月29日

可解释强化学习，Explainable Reinforcement Learning: A Survey

可解释强化学习，Explainable Reinforcement Learning: A Survey

专知会员服务

132+阅读 · 2020年5月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《认知战作为一个战略域：媒体生态系统、社交网络与社会韧性的侵蚀》

【博士论文】已对齐人工智能系统的持久脆弱性

《为码头高价值舰艇提供反无人机系统防御方案研究》80页

美陆军设想无人系统司令部

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

【Science最新论文】XAI—可解释人工智能简述，机遇与挑战

专知

10+阅读 · 2019年12月21日

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

【IEEE Fellow何晓东&邓力】多模态智能论文综述：表示学习，信息融合与应用，259篇文献带你了解AI热点技

专知

53+阅读 · 2019年12月1日

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

【AAAI2020论文】用于视觉对话中深度视觉理解的自适应双向编码模型—DualVD, 中科院信工所于静等

专知

20+阅读 · 2019年11月24日

类脑计算的前沿论文，看我们推荐的这7篇

类脑计算的前沿论文，看我们推荐的这7篇

人工智能前沿讲习班

21+阅读 · 2019年1月7日

【强化学习】变革尚未成功：深度强化学习研究的短期悲观与长期乐观

【强化学习】变革尚未成功：深度强化学习研究的短期悲观与长期乐观

产业智能官

10+阅读 · 2018年3月24日

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

【干货】一文读懂智能对话系统，当前研究综述和未来趋势

新智元

13+阅读 · 2018年1月23日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

尽早跑通深度学习的实践代码，是入门深度学习的最快途径

算法与数据结构

22+阅读 · 2017年12月13日

相关论文

Beyond-Diagonal RIS Architecture Design and Optimization under Physics-Consistent Models

Arxiv

0+阅读 · 3月15日

A Multi-Objective Optimization Approach for Sustainable AI-Driven Entrepreneurship in Resilient Economies

Arxiv

0+阅读 · 3月9日

Align When They Want, Complement When They Need! Human-Centered Ensembles for Adaptive Human-AI Collaboration

Arxiv

0+阅读 · 2月23日

Toward Human-Centered Human-AI Interaction: Advances in Theoretical Frameworks and Practice

Arxiv

1+阅读 · 2月18日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

Towards Autonomous Mathematics Research

Arxiv

0+阅读 · 2月12日

Can Complexity and Uncomputability Explain Intelligence? SuperARC: A Test for Artificial Super Intelligence Based on Recursive Compression

Arxiv

0+阅读 · 2月11日

Bidirectional human-AI collaboration in brain tumour assessments improves both expert human and AI agent performance

Arxiv

0+阅读 · 2月7日

Emergent Alignment via Competition

Arxiv

0+阅读 · 2月2日

Beyond Retrieval: A Modular Benchmark for Academic Deep Research Agents

Arxiv

0+阅读 · 1月30日

相关基金

超大规模约束优化问题算法及其应用天元数学交流项目

国家自然科学基金

2+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

基于视觉差异特征的跨域图像匹配方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

具有时滞效应的微分向量优化问题的理论、算法及应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向存储受限应用的GPU性能预测模型和通信优化关键技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度信息和显著计算的手势交互技术研究及应用

国家自然科学基金

1+阅读 · 2014年12月31日

基于电动汽车的交通系统和电力系统的融合、均衡与优化

国家自然科学基金

2+阅读 · 2014年12月31日

基于图与超图的匹配中的若干问题的研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于超导电路混合装置的量子信息处理的研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员