Mitigating loss of control in advanced AI systems through instrumental goal trajectories - 专知论文

会员服务 ·

0

系统 · 工具 · 人工智能系统 · 路径 · 智能系统 ·

Mitigating loss of control in advanced AI systems through instrumental goal trajectories

翻译：通过工具性目标轨迹减轻先进人工智能系统中的控制权丧失

Researchers at artificial intelligence labs and universities are concerned that highly capable artificial intelligence (AI) systems may erode human control by pursuing instrumental goals. Existing mitigations remain largely technical and system-centric: tracking capability in advanced systems, shaping behaviour through methods such as reinforcement learning from human feedback, and designing systems to be corrigible and interruptible. Here we develop instrumental goal trajectories to expand these options beyond the model. Gaining capability typically depends on access to additional technical resources, such as compute, storage, data and adjacent services, which in turn requires access to monetary resources. In organisations, these resources can be obtained through three organisational pathways. We label these pathways the procurement, governance and finance instrumental goal trajectories (IGTs). Each IGT produces a trail of organisational artefacts that can be monitored and used as intervention points when a systems capabilities or behaviour exceed acceptable thresholds. In this way, IGTs offer concrete avenues for defining capability levels and for broadening how corrigibility and interruptibility are implemented, shifting attention from model properties alone to the organisational systems that enable them.

翻译：人工智能实验室和大学的研究人员担心，高度智能的人工智能系统可能通过追求工具性目标而削弱人类的控制权。现有的缓解措施主要局限于技术和系统层面：追踪先进系统的能力，通过人类反馈强化学习等方法塑造行为，以及设计可修正和可中断的系统。本文提出工具性目标轨迹的概念，以将这些选项扩展到模型之外。能力的提升通常依赖于获取额外的技术资源，如算力、存储、数据和配套服务，而这些又需要资金资源的支持。在组织机构中，这些资源可以通过三种组织路径获得。我们将这些路径命名为采购、治理和财务工具性目标轨迹。每个IGT都会产生一系列可追踪的组织痕迹，当系统的能力或行为超出可接受阈值时，这些痕迹可作为干预点进行监测和利用。通过这种方式，IGT为定义能力水平及拓宽可修正性与可中断性的实施路径提供了具体方案，将关注点从单纯的模型属性转向支撑模型运行的组织系统。

0

相关内容

如何用人工智能构建信息、决策与杀伤力优势

如何用人工智能构建信息、决策与杀伤力优势

专知会员服务

30+阅读 · 1月6日

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

专知会员服务

34+阅读 · 2025年6月6日

【伯克利博士论文】构建可控人工智能的技巧与窍门

【伯克利博士论文】构建可控人工智能的技巧与窍门

专知会员服务

25+阅读 · 2025年6月2日

利用人工智能提升战术级目标定位能力

利用人工智能提升战术级目标定位能力

专知会员服务

35+阅读 · 2024年12月4日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

106+阅读 · 2023年2月19日

推荐！《人工智能在武器系统中的应用》美智库-国防系统信息分析中心(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库-国防系统信息分析中心(DSIAC)2022最新92页报告

专知会员服务

255+阅读 · 2022年10月16日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

专知会员服务

79+阅读 · 2022年5月18日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

39+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

110+阅读 · 2022年4月28日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

The Controllability Trap: A Governance Framework for Military AI Agents

Arxiv

0+阅读 · 3月3日

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Arxiv

0+阅读 · 2月6日

Bifrost: Steering Strategic Trajectories to Bridge Contextual Gaps for Self-Improving Agents

Arxiv

0+阅读 · 2月5日

De-Linearizing Agent Traces: Bayesian Inference of Latent Partial Orders for Efficient Execution

Arxiv

0+阅读 · 2月4日

STAMP/STPA Informed Characterization of Factors Leading to Loss of Control in AI Systems

Arxiv

0+阅读 · 2月3日

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Arxiv

0+阅读 · 2月2日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Arxiv

0+阅读 · 1月30日

An Aristotelian ontology of instrumental goals: Structural features to be managed and not failures to be eliminated

Arxiv

0+阅读 · 1月30日

TriCEGAR: A Trace-Driven Abstraction Mechanism for Agentic AI

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

人工智能系统

最新内容

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

2+阅读 · 今天14:04

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

2+阅读 · 今天13:54

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

6+阅读 · 今天13:49

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

4+阅读 · 今天13:38

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

5+阅读 · 今天13:37

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

5+阅读 · 今天13:11

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

10+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

5+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

5+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

7+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

5+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

6+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

8+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

6+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

相关VIP内容

如何用人工智能构建信息、决策与杀伤力优势

如何用人工智能构建信息、决策与杀伤力优势

专知会员服务

30+阅读 · 1月6日

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

中文版3600字 | 人工智能对指挥控制系统的加速效应及其陆军实施启示

专知会员服务

34+阅读 · 2025年6月6日

【伯克利博士论文】构建可控人工智能的技巧与窍门

【伯克利博士论文】构建可控人工智能的技巧与窍门

专知会员服务

25+阅读 · 2025年6月2日

利用人工智能提升战术级目标定位能力

利用人工智能提升战术级目标定位能力

专知会员服务

35+阅读 · 2024年12月4日

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

《可解释人工智能的态势感知框架 (SAFE-AI) 和 XAI 系统的人为因素考虑》麻省理工学院17页论文

专知会员服务

106+阅读 · 2023年2月19日

推荐！《人工智能在武器系统中的应用》美智库-国防系统信息分析中心(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库-国防系统信息分析中心(DSIAC)2022最新92页报告

专知会员服务

255+阅读 · 2022年10月16日

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

最新综述论文《人类与人工智能交互中的信任：确定模型、措施和方法》东京工业大学

专知会员服务

30+阅读 · 2022年6月16日

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

《敏捷、抗脆弱、以人工智能为基础的指挥和控制》万字长文，中文版，新南威尔士大学

专知会员服务

79+阅读 · 2022年5月18日

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

AI系统如何可信？CMU-Nicholas博士论文《以模型为中心的人工智能验证》200页阐述增强AI系统信任度以确保安全部署运行

专知会员服务

67+阅读 · 2022年1月27日

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

【推荐论文】可解释知识解释系统发展方向，Directions for Explainable Knowledge-Enabled Systems

专知会员服务

59+阅读 · 2020年3月19日

热门VIP内容

开通专知VIP会员享更多权益服务

美以伊战争：首次人工智能战争——军事自主性困境

《美海军利用扩展现实增强知识流动研究》300页报告

以色列-美国-伊朗战争中的无人机：关键要点

《Palantir任务保障性软件安全标准（MA-S2）》

相关资讯

人工智能和军备控制，80页pdf

人工智能和军备控制，80页pdf

专知

16+阅读 · 2022年11月2日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

39+阅读 · 2022年10月19日

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

推荐！《人工智能在武器系统中的应用》美智库(DSIAC)2022最新92页报告

专知

102+阅读 · 2022年10月17日

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

推荐！《基于人工智能（AI）的空中和导弹防御（AMD）：以结果为导向的辅助决策》美国海军研究生院系统工程顶点报告145页

专知

118+阅读 · 2022年9月1日

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

【美国陆军】《人工智能系统能否提高陆军任务指挥过程中的信息收集效率？》39页技术报告

专知

51+阅读 · 2022年8月31日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

36+阅读 · 2022年7月31日

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

《人工智能在空战指挥与控制中的应用》中文版，美国空军大学空军指挥参谋学院

专知

110+阅读 · 2022年4月28日

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

AI+军事？美国政府问责局(GAO)最新《人工智能武器系统研制与获取能力现状》报告，53页pdf

专知

98+阅读 · 2022年3月7日

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

集大成者！可解释人工智能(XAI)研究最新进展万字综述论文: 概念体系机遇和挑战—构建负责任的人工智能

专知

38+阅读 · 2019年12月27日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

相关论文

The Controllability Trap: A Governance Framework for Military AI Agents

Arxiv

0+阅读 · 3月3日

From Features to Actions: Explainability in Traditional and Agentic AI Systems

Arxiv

0+阅读 · 2月6日

Bifrost: Steering Strategic Trajectories to Bridge Contextual Gaps for Self-Improving Agents

Arxiv

0+阅读 · 2月5日

De-Linearizing Agent Traces: Bayesian Inference of Latent Partial Orders for Efficient Execution

Arxiv

0+阅读 · 2月4日

STAMP/STPA Informed Characterization of Factors Leading to Loss of Control in AI Systems

Arxiv

0+阅读 · 2月3日

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Arxiv

0+阅读 · 2月2日

AgentRx: Diagnosing AI Agent Failures from Execution Trajectories

Arxiv

0+阅读 · 2月2日

The Hot Mess of AI: How Does Misalignment Scale With Model Intelligence and Task Complexity?

Arxiv

0+阅读 · 1月30日

An Aristotelian ontology of instrumental goals: Structural features to be managed and not failures to be eliminated

Arxiv

0+阅读 · 1月30日

TriCEGAR: A Trace-Driven Abstraction Mechanism for Agentic AI

Arxiv

0+阅读 · 1月30日

相关基金

面向类人机器人动作规划的参数最优控制技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

改进智能优化策略多机动目标跟踪方法研究

国家自然科学基金

19+阅读 · 2015年12月31日

网络化遥操作多机器人系统时滞相关控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向人类工作记忆改善的脑电复杂网络信息反馈非线性计算模型研究

国家自然科学基金

0+阅读 · 2015年12月31日

多用途载人航天器时间触发系统的容错和柔性调度方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

可信工业控制系统中信任冷启动方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

具有动态不确定性的下三角多智能体系统分布式自适应协同控制

国家自然科学基金

3+阅读 · 2015年12月31日

基于动态增益非线性干扰观测器的多智能体系统协调跟踪和干扰抑制

国家自然科学基金

1+阅读 · 2015年12月31日

多智能体系统的可控性与群可控性研究

国家自然科学基金

10+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员