Consequentialist Objectives and Catastrophe - 专知论文

会员服务 ·

0

系统 · 人工智能系统 · 偏差 · 智能系统 · 人工智能 ·

Consequentialist Objectives and Catastrophe

翻译：结果主义目标与灾难

Henrik Marklund,Alex Infanger,Benjamin Van Roy

Because human preferences are too complex to codify, AIs operate with misspecified objectives. Optimizing such objectives often produces undesirable outcomes; this phenomenon is known as reward hacking. Such outcomes are not necessarily catastrophic. Indeed, most examples of reward hacking in previous literature are benign. And typically, objectives can be modified to resolve the issue. We study the prospect of catastrophic outcomes induced by AIs operating in complex environments. We argue that, when capabilities are sufficiently advanced, pursuing a fixed consequentialist objective tends to result in catastrophic outcomes. We formalize this by establishing conditions that provably lead to such outcomes. Under these conditions, simple or random behavior is safe. Catastrophic risk arises due to extraordinary competence rather than incompetence. With a fixed consequentialist objective, avoiding catastrophe requires constraining AI capabilities. In fact, constraining capabilities the right amount not only averts catastrophe but yields valuable outcomes. Our results apply to any objective produced by modern industrial AI development pipelines.

翻译：由于人类偏好过于复杂而难以系统化，人工智能系统往往在目标设定存在偏差的情况下运行。优化此类偏差目标通常会产生不良后果，这种现象被称为奖励破解（reward hacking）。但此类后果未必具有灾难性——实际上，既有文献中多数奖励破解案例均为良性事件，且通常可通过修正目标来解决。本研究探讨了在复杂环境中运行的人工智能系统引发灾难性后果的可能性。我们认为，当系统能力足够先进时，追求固定的结果主义目标往往会导致灾难性后果。通过建立可证实的条件，我们对此结论进行了形式化论证。在这些条件下，简单或随机行为反而是安全的。灾难性风险源于超凡能力而非能力不足。面对固定的结果主义目标，避免灾难需要限制人工智能能力。事实上，适度约束能力不仅能避免灾难，还能产生有价值的成果。我们的结论适用于现代工业级人工智能开发流程所产生的任何目标系统。

0

相关内容

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

专知会员服务

28+阅读 · 2025年4月14日

因果决策综述

因果决策综述

专知会员服务

51+阅读 · 2025年3月1日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

推荐如何用因果推理？Rutgers大学最新《推荐中的因果推理: 基础、方法与应用》综述，全面阐述推荐因果推理方法体系

推荐如何用因果推理？Rutgers大学最新《推荐中的因果推理: 基础、方法与应用》综述，全面阐述推荐因果推理方法体系

专知会员服务

53+阅读 · 2023年1月13日

《结合人类推理和机器学习的因果学习应用于国防》美国海军研究生院2022最新32页slides

《结合人类推理和机器学习的因果学习应用于国防》美国海军研究生院2022最新32页slides

专知会员服务

81+阅读 · 2022年11月6日

253页PPT！《因果性Causality》教程，哥本哈根大学Jonas Peters讲授

253页PPT！《因果性Causality》教程，哥本哈根大学Jonas Peters讲授

专知会员服务

99+阅读 · 2022年7月7日

「因果推理」概述论文，13页pdf

专知会员服务

101+阅读 · 2021年3月20日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知

16+阅读 · 2020年2月12日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

工程决策中业主乐观偏差的形成、测度及其影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

Relational Structural Causal Models

Arxiv

0+阅读 · 6月12日

Causal Preference Elicitation

Arxiv

0+阅读 · 6月2日

Knowing Isn't Understanding: Re-grounding Generative Proactivity with Epistemic and Behavioral Insight

Arxiv

0+阅读 · 5月31日

AI Loss of Control Incident Management: Response & Resilience

Arxiv

0+阅读 · 5月28日

Application of Propensity Score Models and Causal Estimators in Observational Studies under Model Misspecification

Arxiv

0+阅读 · 5月20日

Causal Fairness for Survival Analysis

Arxiv

0+阅读 · 5月12日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 4月27日

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

Arxiv

18+阅读 · 2024年3月7日

A Review and Roadmap of Deep Causal Model from Different Causal Structures and Representations

Arxiv

13+阅读 · 2023年11月2日

A Survey on Causal Reinforcement Learning

Arxiv

29+阅读 · 2023年2月10日

VIP会员

文章信息

相关主题

人工智能系统

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

3+阅读 · 6月22日

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

4+阅读 · 6月22日

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

5+阅读 · 6月22日

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

4+阅读 · 6月22日

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

4+阅读 · 6月22日

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

4+阅读 · 6月22日

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

4+阅读 · 6月22日

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

8+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

21+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

《理解决策主体对可竞争人工智能系统的需求和感知》最新262页论文

专知会员服务

28+阅读 · 2025年4月14日

因果决策综述

因果决策综述

专知会员服务

51+阅读 · 2025年3月1日

基于因果推断的推荐系统去偏研究

基于因果推断的推荐系统去偏研究

专知会员服务

21+阅读 · 2024年11月10日

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

清华等最新《因果强化学习》综述，29页pdf详述因果强化学习方法与评价

专知会员服务

102+阅读 · 2023年2月13日

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

强化学习如何因果化？看最新《因果强化学习》综述论文，39页pdf

专知会员服务

84+阅读 · 2023年2月7日

推荐如何用因果推理？Rutgers大学最新《推荐中的因果推理: 基础、方法与应用》综述，全面阐述推荐因果推理方法体系

推荐如何用因果推理？Rutgers大学最新《推荐中的因果推理: 基础、方法与应用》综述，全面阐述推荐因果推理方法体系

专知会员服务

53+阅读 · 2023年1月13日

《结合人类推理和机器学习的因果学习应用于国防》美国海军研究生院2022最新32页slides

《结合人类推理和机器学习的因果学习应用于国防》美国海军研究生院2022最新32页slides

专知会员服务

81+阅读 · 2022年11月6日

253页PPT！《因果性Causality》教程，哥本哈根大学Jonas Peters讲授

253页PPT！《因果性Causality》教程，哥本哈根大学Jonas Peters讲授

专知会员服务

99+阅读 · 2022年7月7日

「因果推理」概述论文，13页pdf

专知会员服务

101+阅读 · 2021年3月20日

最新「因果推断Causal Inference」综述论文38页pdf，Buffalo、Georgia、阿里巴巴、Virginia

专知会员服务

183+阅读 · 2020年2月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

《因果性与机器学习综述》2022最新40页报告，美国陆军研究实验室

专知

12+阅读 · 2022年11月25日

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

推荐！《不确定性下的作战决策：推理、序贯和对抗性方法》美国空军293页博士论文，含代码

专知

52+阅读 · 2022年11月16日

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

【254页博士论文】《动态多目标环境中基于深度强化学习的智能决策方案》

专知

33+阅读 · 2022年10月17日

「因果推理」概述论文，13页pdf

「因果推理」概述论文，13页pdf

专知

16+阅读 · 2021年3月20日

最新《可解释人工智能》概述，50页ppt

最新《可解释人工智能》概述，50页ppt

专知

12+阅读 · 2021年3月17日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

AAAI2020最新「因果推理表示学习」122页ppt，Georgia、Buffalo、阿里巴巴与Virginia

专知

16+阅读 · 2020年2月12日

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

最新「因果推断Causal Inference」综述论文38页pdf，阿里巴巴、Buffalo、Georgia、Virginia

专知

68+阅读 · 2020年2月11日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

36页最新《深度学习在推荐系统上的应用》综述论文，209篇参考论文

专知

24+阅读 · 2018年9月6日

相关论文

Relational Structural Causal Models

Arxiv

0+阅读 · 6月12日

Causal Preference Elicitation

Arxiv

0+阅读 · 6月2日

Knowing Isn't Understanding: Re-grounding Generative Proactivity with Epistemic and Behavioral Insight

Arxiv

0+阅读 · 5月31日

AI Loss of Control Incident Management: Response & Resilience

Arxiv

0+阅读 · 5月28日

Application of Propensity Score Models and Causal Estimators in Observational Studies under Model Misspecification

Arxiv

0+阅读 · 5月20日

Causal Fairness for Survival Analysis

Arxiv

0+阅读 · 5月12日

The Alignment Target Problem: Divergent Moral Judgments of Humans, AI Systems, and Their Designers

Arxiv

0+阅读 · 4月27日

On the Essence and Prospect: An Investigation of Alignment Approaches for Big Models

Arxiv

18+阅读 · 2024年3月7日

A Review and Roadmap of Deep Causal Model from Different Causal Structures and Representations

Arxiv

13+阅读 · 2023年11月2日

A Survey on Causal Reinforcement Learning

Arxiv

29+阅读 · 2023年2月10日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

信息不完全的双边匹配决策方法研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于随机有限集理论的复杂背景视频多目标跟踪研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于后悔理论的多属性决策方法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

人类双向选择行为的统计特征分析与预测方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

工程决策中业主乐观偏差的形成、测度及其影响研究

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

因果推断及不完全数据的统计分析

国家自然科学基金

23+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员