Position: Align AI to Our Aspirations, Not Our Flaws - 专知论文

会员服务 ·

0

对齐 · AI · 人类价值 · 极化 · 约束 ·

Position: Align AI to Our Aspirations, Not Our Flaws

翻译：标题：立场：让AI对齐我们的抱负，而非缺陷

Nikita Kazeev,Bui Nhat Huyen Phan

We argue that aligning AI to aggregated human preferences is the wrong target. With current technology, one can train AIs to share the values of a Silicon Valley techno-optimist, a degrowth environmentalist, a national-conservative culture warrior, a single-party state cadre, or a devout religious traditionalist. We should not. Human values produce societies that thrive or fail on the merits of those values - from failed states and extreme inequality to declining happiness, political polarization, and government dysfunction in the world's wealthiest democracies. The pluralistic-alignment program correctly diagnoses that there is no single "humanity" to align with, but is dangerous if taken as the main directive. We argue that AI should be trained to a non-negotiable floor of objective alignment goals - competence, bounded by the constraints of factual accuracy, honesty, and lawfulness and that pluralism belongs at the surface (language, register, conventions, missing-context defaults) and across the wide band of legitimate value tradeoffs that respect the floor, but not at the level of values that violate it. We highlight the empirical reality of unfiltered pluralistic values, propose four commitments as a constructive alternative, and engage six credible objections: commercial pressure and practical feasibility, democratic legitimacy, regulatory compliance, over-reliance on institutionalist explanations, the charge that the floor itself is culturally laden, and the limits of Coherent Extrapolated Volition.

翻译：摘要：我们认为，将AI与聚合的人类偏好对齐是错误的标靶。现有技术可训练AI共享硅谷技术乐观主义者、去增长环保主义者、民族保守文化斗士、一党制国家干部或虔诚宗教传统主义者的价值观——但不应如此。人类价值观会让社会因价值观优劣而兴盛或衰败，从失败国家与极端不平等，到全球最富裕民主国家的幸福感下降、政治极化与政府失灵。多元对齐方案正确诊断出不存在单一的“人类”可供对齐，但若将其作为主要指令则具有危险性。我们主张，AI应被训练至不可协商的客观对齐目标底线——能力须受事实准确性、诚实性与合法性约束，而多元性应存在于表层（语言、语域、惯例、缺失语境默认值），以及尊重底线、跨越合法价值权衡的广阔区间，但不应存在于违背底线的价值层级。我们强调未过滤多元价值观的经验现实，提出四项承诺作为建设性替代方案，并回应六项可信反对意见：商业压力与实操可行性、民主合法性、监管合规性、对制度主义解释的过度依赖、“底线本身具有文化负载”的指控，以及连贯外推意志的局限性。

0

相关内容

追寻真正的AI自主性：从遗留思维到战场优势

追寻真正的AI自主性：从遗留思维到战场优势

专知会员服务

22+阅读 · 2025年12月17日

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

专知会员服务

26+阅读 · 2025年12月7日

人工智能军事决策支持系统中的算法偏见问题

人工智能军事决策支持系统中的算法偏见问题

专知会员服务

34+阅读 · 2024年9月11日

军事决策中的人工智能：支持人类，而非取代人类

军事决策中的人工智能：支持人类，而非取代人类

专知会员服务

64+阅读 · 2024年9月10日

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

专知会员服务

28+阅读 · 2024年8月25日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

40+阅读 · 2020年1月13日

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，AI Career Pathways: Put Yourself on the Right Track，让你不被AI失业与共建一个Work的AI团队

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，AI Career Pathways: Put Yourself on the Right Track，让你不被AI失业与共建一个Work的AI团队

专知会员服务

53+阅读 · 2020年1月9日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

84+阅读 · 2022年8月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

74+阅读 · 2022年6月30日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

专知

11+阅读 · 2020年1月9日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

45K！刚面完 AI 岗，这几点分享给你！

45K！刚面完 AI 岗，这几点分享给你！

AI100

17+阅读 · 2018年12月18日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

动态社会网络中异质交互观点演化动力学建模及分析研究

国家自然科学基金

1+阅读 · 2016年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

官员异质性、社会信任与企业资源配置

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

'AI Alignment' Encompasses Competing Technical Priorities

Arxiv

0+阅读 · 6月12日

Position: AI Must Become Planet-Centered, Not Just Human-Centered

Arxiv

0+阅读 · 6月9日

Position: Stop Preaching and Start Practising Data Frugality for Responsible Development of AI

Arxiv

0+阅读 · 5月31日

Position: Adopting AI in Practice Does Not Guarantee the Productivity Boost

Arxiv

0+阅读 · 5月23日

Divergent Paths to Depolarization: Dialogue Design Determines the Prosocial Benefits of AI-Assisted Political Argumentation

Arxiv

0+阅读 · 5月22日

After the Interface: Relocating Human Agency in the Age of Conversational AI

Arxiv

0+阅读 · 5月14日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月14日

Optimized but Unowned: How AI-Authored Goals Undermine the Motivation They Are Meant to Drive

Arxiv

0+阅读 · 5月13日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 5月12日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

0+阅读 · 53分钟前

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

0+阅读 · 55分钟前

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

6+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

5+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

4+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

4+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

5+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

4+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

6+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

相关VIP内容

追寻真正的AI自主性：从遗留思维到战场优势

追寻真正的AI自主性：从遗留思维到战场优势

专知会员服务

22+阅读 · 2025年12月17日

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

【NeurIPS2025教程】人类–AI 对齐：基础、方法、实践与挑战

专知会员服务

26+阅读 · 2025年12月7日

人工智能军事决策支持系统中的算法偏见问题

人工智能军事决策支持系统中的算法偏见问题

专知会员服务

34+阅读 · 2024年9月11日

军事决策中的人工智能：支持人类，而非取代人类

军事决策中的人工智能：支持人类，而非取代人类

专知会员服务

64+阅读 · 2024年9月10日

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

专知会员服务

28+阅读 · 2024年8月25日

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

覆盖800+文献、多位知名学者挂帅，北大联合剑桥、CMU等多所高校发布《AI 对齐 (Alignment)》全面性综述

专知会员服务

54+阅读 · 2023年11月1日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

40+阅读 · 2020年1月13日

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，AI Career Pathways: Put Yourself on the Right Track，让你不被AI失业与共建一个Work的AI团队

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，AI Career Pathways: Put Yourself on the Right Track，让你不被AI失业与共建一个Work的AI团队

专知会员服务

53+阅读 · 2020年1月9日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

推荐！【中文版】《利用人工智能辅助指挥官进行复杂决策》美国海陆空军10位技术专家联合撰写

专知

84+阅读 · 2022年8月29日

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

推荐！【中美俄AI军用方向】中文版《为国家安全和国防开发人工智能》，美军重大AI应用案例及未来发展布局

专知

74+阅读 · 2022年6月30日

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

【AI+ 军事】美政府问责局（GAO）最新《人工智能：国防部应改进策略和流程并加强协作指导》报告，97页pdf

专知

57+阅读 · 2022年4月11日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

吴恩达推荐！22页「AI职业生涯发展正规之道」秘籍，让你不被AI失业与共建一个Work的AI团队

专知

11+阅读 · 2020年1月9日

浅谈群体智能——新一代AI的重要方向

浅谈群体智能——新一代AI的重要方向

中国科学院自动化研究所

44+阅读 · 2019年10月16日

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

当区块链与人工智能相遇，会有怎样火花？这篇23页《Blockchain for AI》综述论文告诉你（附下载）

专知

18+阅读 · 2019年1月20日

45K！刚面完 AI 岗，这几点分享给你！

45K！刚面完 AI 岗，这几点分享给你！

AI100

17+阅读 · 2018年12月18日

【智能制造】智能制造的核心——智能决策

【智能制造】智能制造的核心——智能决策

产业智能官

12+阅读 · 2018年4月11日

相关论文

'AI Alignment' Encompasses Competing Technical Priorities

Arxiv

0+阅读 · 6月12日

Position: AI Must Become Planet-Centered, Not Just Human-Centered

Arxiv

0+阅读 · 6月9日

Position: Stop Preaching and Start Practising Data Frugality for Responsible Development of AI

Arxiv

0+阅读 · 5月31日

Position: Adopting AI in Practice Does Not Guarantee the Productivity Boost

Arxiv

0+阅读 · 5月23日

Divergent Paths to Depolarization: Dialogue Design Determines the Prosocial Benefits of AI-Assisted Political Argumentation

Arxiv

0+阅读 · 5月22日

After the Interface: Relocating Human Agency in the Age of Conversational AI

Arxiv

0+阅读 · 5月14日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月14日

Optimized but Unowned: How AI-Authored Goals Undermine the Motivation They Are Meant to Drive

Arxiv

0+阅读 · 5月13日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 5月12日

Positive Alignment: Artificial Intelligence for Human Flourishing

Arxiv

0+阅读 · 5月11日

相关基金

动态社会网络中异质交互观点演化动力学建模及分析研究

国家自然科学基金

1+阅读 · 2016年12月31日

不确定环境下的自主移动机器人目标搜索问题研究

国家自然科学基金

52+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非对称群体兴趣相关性并融合情境与群体信任的Web服务推荐研究

国家自然科学基金

1+阅读 · 2015年12月31日

模糊认知集群优化的聚类算法

国家自然科学基金

9+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的群体偏好决策分析研究

国家自然科学基金

6+阅读 · 2014年12月31日

官员异质性、社会信任与企业资源配置

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的特征融合在移动机器人视觉中的场景理解及研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于逆向强化学习和人工智能的移动机器人自主学习方法研究

国家自然科学基金

12+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员