In shared autonomy, a critical tension arises when an automated assistant must choose between obeying a human's instruction and deliberately overriding it to prevent harm. This safety-critical behavior is known as intelligent disobedience. To formalize this dynamic, this paper introduces the Intelligent Disobedience Game (IDG), a sequential game-theoretic framework based on Stackelberg games that models the interaction between a human leader and an assistive follower operating under asymmetric information. It characterizes optimal strategies for both agents across multi-step scenarios, identifying strategic phenomena such as ``safety traps,'' where the system indefinitely avoids harm but fails to achieve the human's goal. The IDG provides a needed mathematical foundation that enables both the algorithmic development of agents that can learn safe non-compliance and the empirical study of how humans perceive and trust disobedient AI. The paper further translates the IDG into a shared control Multi-Agent Markov Decision Process representation, forming a compact computational testbed for training reinforcement learning agents.


翻译:在共享自主系统中,当自动化助手面临服从人类指令与主动否决指令以避免伤害之间的抉择时,会产生一种关键张力。这种安全攸关的行为被称为"智能不服从"。为形式化这一动态过程,本文提出智能不服从博弈(IDG)——一种基于斯塔克尔伯格博弈的序列博弈理论框架,用于建模人类领导者与辅助跟随者在非对称信息条件下的交互行为。该框架刻画了多步场景下两类智能体的最优策略,识别出"安全陷阱"等策略性现象——系统虽能无限期避免伤害却无法实现人类目标。智能不服从博弈提供了必要的数学基础,既能支持可学习安全违抗行为的智能体算法开发,又能开展关于人类如何感知与信任不服从型人工智能的实证研究。本文进一步将智能不服从博弈转化为共享控制的多智能体马尔可夫决策过程表征,构建用于训练强化学习智能体的紧凑计算测试平台。

0
下载
关闭预览

相关内容

《基于Transformer的智能体的战术决策解释》
专知会员服务
48+阅读 · 2025年12月28日
智能博弈决策大模型智能体技术综述
专知会员服务
116+阅读 · 2024年6月29日
多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
智能推演综述:博弈论视角下的战术战役兵棋与战略博弈
专知会员服务
138+阅读 · 2023年9月19日
面向智能博弈的决策Transformer方法综述
专知会员服务
201+阅读 · 2023年4月14日
多智能体博弈、学习与控制
专知会员服务
128+阅读 · 2023年1月18日
智能博弈对抗方法:博弈论与强化学习综合视角对比分析
专知会员服务
198+阅读 · 2022年8月28日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
兵棋推演的智能决策技术与挑战
专知
28+阅读 · 2022年7月5日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
不对称多代理博弈中的博弈理论解读
AI前线
14+阅读 · 2018年3月8日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
6+阅读 · 6月17日
相关VIP内容
《基于Transformer的智能体的战术决策解释》
专知会员服务
48+阅读 · 2025年12月28日
智能博弈决策大模型智能体技术综述
专知会员服务
116+阅读 · 2024年6月29日
多智能体博弈中的分布式学习: 原理与算法
专知会员服务
54+阅读 · 2024年6月13日
智能推演综述:博弈论视角下的战术战役兵棋与战略博弈
专知会员服务
138+阅读 · 2023年9月19日
面向智能博弈的决策Transformer方法综述
专知会员服务
201+阅读 · 2023年4月14日
多智能体博弈、学习与控制
专知会员服务
128+阅读 · 2023年1月18日
智能博弈对抗方法:博弈论与强化学习综合视角对比分析
专知会员服务
198+阅读 · 2022年8月28日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
23+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员