Concept-based Models are neural networks that learn a concept extractor to map inputs to high-level concepts and an inference layer to translate these into predictions. Ensuring these modules produce interpretable concepts and behave reliably in out-of-distribution is crucial, yet the conditions for achieving this remain unclear. We study this problem by establishing a novel connection between Concept-based Models and reasoning shortcuts (RSs), a common issue where models achieve high accuracy by learning low-quality concepts, even when the inference layer is fixed and provided upfront. Specifically, we extend RSs to the more complex setting of Concept-based Models and derive theoretical conditions for identifying both the concepts and the inference layer. Our empirical results highlight the impact of RSs and show that existing methods, even combined with multiple natural mitigation strategies, often fail to meet these conditions in practice.


翻译:概念模型是一种神经网络,它通过学习概念提取器将输入映射到高层概念,并通过推理层将这些概念转化为预测。确保这些模块产生可解释的概念并在分布外场景中可靠运行至关重要,然而实现这一目标的条件尚不明确。我们通过建立概念模型与推理捷径之间的新联系来研究此问题。推理捷径是一种常见问题,即模型通过学习低质量概念获得高准确率,即使推理层已预先固定并提供。具体而言,我们将推理捷径扩展到概念模型这一更复杂的场景中,并推导出识别概念与推理层的理论条件。我们的实证结果突显了推理捷径的影响,并表明现有方法即使结合多种自然缓解策略,在实践中也常常无法满足这些条件。

0
下载
关闭预览

相关内容

【CMU博士论文】功能组件作为神经模型可解释性的范式
专知会员服务
20+阅读 · 2025年2月3日
【博士论文】机器学习中新型神经元模型的研究
专知会员服务
25+阅读 · 2024年11月20日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
《深度学习中神经注意力模型》综述论文
专知会员服务
114+阅读 · 2021年12月15日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
大讲堂 | 神经关系抽取模型
AI研习社
24+阅读 · 2018年9月11日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Arxiv
0+阅读 · 2月12日
VIP会员
相关VIP内容
【CMU博士论文】功能组件作为神经模型可解释性的范式
专知会员服务
20+阅读 · 2025年2月3日
【博士论文】机器学习中新型神经元模型的研究
专知会员服务
25+阅读 · 2024年11月20日
【NUS博士论文】深度表示学习的视频基础模型,236页pdf
专知会员服务
33+阅读 · 2023年12月26日
《深度学习中神经注意力模型》综述论文
专知会员服务
114+阅读 · 2021年12月15日
相关资讯
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
深度学习模型可解释性的研究进展
专知
26+阅读 · 2020年8月1日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
大讲堂 | 神经关系抽取模型
AI研习社
24+阅读 · 2018年9月11日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
Top
微信扫码咨询专知VIP会员