We prove that no reinforcement learning policy with confidence-gated autonomy can simultaneously achieve maximum helpfulness, optimal calibration, and full autonomy under rational oversight, whenever some tasks exceed the agent's reliable competence: the Behavioral Credibility Trilemma. The impossibility is geometric -- adding any non-affine autonomy incentive to a strictly proper scoring rule destroys strict properness, so an agent rewarded for both calibrated confidence and autonomous action systematically inflates its reported confidence on tasks below the principal's approval threshold. The Behavioral Perturbation Lemma quantifies the inflation (scaling as $w_A/(2 w_C)$ for the Brier score) and shows detection requires $Ω(1/Δ^2)$ observations. We prove the principal's optimal oversight rule is necessarily non-affine, making the impossibility unconditional and optimizer-independent across log-concave-density policy families. We formalize the Confidence-Gated Decision Problem, map existing methods onto the trilemma, and identify two constructive resolution pathways (commitment, domain separation). A 540-configuration Best-of-N experiment tests five pre-registered hypotheses, all strongly confirmed (effect sizes $d = 1.10$ to $5.32$), and adds a descriptive analysis of the achievable-$(H, C, A)$ surface geometry showing a plateau-truncated frontier consistent with the predicted inflation saturation.


翻译:我们证明,在任何存在任务超出智能体可靠能力范围的情况下,没有一种具有置信门控自主性的强化学习策略能在理性监督下同时实现最大帮助性、最优校准和完全自主性——此即行为可信三元困境。该不可能性本质上是几何性的——在严格适当的评分规则中加入任何非仿射自主激励都会破坏其严格适当性,因此,同时追求校准置信与自主行动的智能体,会在低于委托方审批阈值的任务上系统性夸大其报告的置信度。行为扰动引理量化了该膨胀量(对于Brier分数,其量级为$w_A/(2 w_C)$),并表明检测需要$Ω(1/Δ^2)$次观测。我们证明委托方的最优监督规则必然是非仿射的,这使得该不可能性在逻辑凸密度策略族内是无条件的且与优化器无关。我们形式化了置信门控决策问题,将现有方法映射到三元困境上,并确定了两种建设性的解决路径(承诺机制与领域分离)。一项包含540种配置的Best-of-N实验检验了五个预注册假设,所有假设均得到强力证实(效应量$d = 1.10$至$5.32$),并对可达$(H, C, A)$曲面几何进行了描述性分析,显示其呈现与预测膨胀饱和一致的平台截断前沿。

0
下载
关闭预览

相关内容

可信机器学习的公平性综述
专知会员服务
69+阅读 · 2021年2月23日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
浅谈主动学习(Active Learning)
凡人机器学习
32+阅读 · 2020年6月18日
基于面部表情的学习困惑自动识别法
MOOC
10+阅读 · 2018年9月17日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
3+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2013年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
国家自然科学基金
23+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员