Explanations of model behavior are commonly evaluated via proxy properties weakly tied to the purposes explanations serve in practice. We contribute a decision theoretic framework that treats explanations as information signals valued by the expected improvement they enable on a specified decision task. This approach yields three distinct estimands: 1) a theoretical benchmark that upperbounds achievable performance by any agent with the explanation, 2) a human-complementary value that quantifies the theoretically attainable value that is not already captured by a baseline human decision policy, and 3) a behavioral value representing the causal effect of providing the explanation to human decision-makers. We instantiate these definitions in a practical validation workflow, and apply them to assess explanation potential and interpret behavioral effects in human-AI decision support and mechanistic interpretability.


翻译:模型行为的解释通常通过代理属性进行评估,这些属性与解释在实际应用中所服务的目的关联较弱。我们提出了一个决策理论框架,将解释视为信息信号,其价值由其在特定决策任务上所能实现的预期改进来衡量。该方法产生了三个不同的估计量:1)一个理论基准,为任何拥有该解释的智能体所能达到的性能设定了上限;2)一个人类互补价值,用于量化理论上可获取但尚未被基线人类决策策略所捕获的价值;3)一个行为价值,代表向人类决策者提供解释所产生的因果效应。我们将这些定义实例化为一个实用的验证工作流程,并应用于评估人机决策支持和机制可解释性中的解释潜力及解释行为效应。

0
下载
关闭预览

相关内容

一个具体事物,总是有许许多多的性质与关系,我们把一个事物的性质与关系,都叫作事物的属性。 事物与属性是不可分的,事物都是有属性的事物,属性也都是事物的属性。 一个事物与另一个事物的相同或相异,也就是一个事物的属性与另一事物的属性的相同或相异。 由于事物属性的相同或相异,客观世界中就形成了许多不同的事物类。具有相同属性的事物就形成一类,具有不同属性的事物就分别地形成不同的类。
可解释人工智能的基础
专知会员服务
32+阅读 · 2025年10月26日
【AAAI2023】学习为可解释序列数据建模选择原型部件
专知会员服务
20+阅读 · 2022年12月13日
机器学习的可解释性
专知会员服务
180+阅读 · 2020年8月27日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
132+阅读 · 2020年5月14日
可解释推荐:综述与新视角
专知会员服务
114+阅读 · 2019年10月13日
「强化学习可解释性」最新2022综述
专知
12+阅读 · 2022年1月16日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
《多域战场上反制小型无人机系统》150页
专知会员服务
11+阅读 · 今天7:47
战场人工智能:增强陆地作战能力的发现与要求
专知会员服务
2+阅读 · 今天7:37
以人工智能为中心的指挥控制
专知会员服务
2+阅读 · 今天7:14
《基于深度强化学习的反无人机技术研究》178页
专知会员服务
11+阅读 · 6月10日
“史诗怒火”行动与“AI中心战”模式的浮现
专知会员服务
11+阅读 · 6月10日
【CVPR2026教程】扩散模型的解析理解
专知会员服务
5+阅读 · 6月10日
马赛克战:俄乌战场透析
专知会员服务
17+阅读 · 6月10日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员