As AI models achieve remarkable capabilities across diverse domains, understanding what representations they learn and how they encode concepts has become increasingly important for both scientific progress and trustworthy deployment. Recent works in mechanistic interpretability have widely reported that neural networks represent meaningful concepts as linear directions in their representation spaces and often encode diverse concepts in superposition. Various sparse dictionary learning (SDL) methods, including sparse autoencoders, transcoders, and crosscoders, are utilized to address this by training auxiliary models with sparsity constraints to disentangle these superposed concepts into monosemantic features. These methods are the backbone of modern mechanistic interpretability, yet in practice they consistently produce polysemantic features, feature absorption, and dead neurons, with very limited theoretical understanding of why these phenomena occur. Existing theoretical work is limited to tied-weight sparse autoencoders, leaving the broader family of SDL methods without formal grounding. We develop the first unified theoretical framework that casts all major SDL variants as a single piecewise biconvex optimization problem, and characterize its global solution set, non-identifiability, and spurious optima. This analysis yields principled explanations for feature absorption and dead neurons. To expose these pathologies under full ground-truth access, we introduce the Linear Representation Bench. Guided by our theory, we propose feature anchoring, a novel technique that restores SDL identifiability, substantially improving feature recovery across synthetic benchmarks and real neural representations.


翻译:随着AI模型在多个领域展现出卓越能力,理解它们学习何种表征以及如何编码概念,对于科学进步和可信部署都变得日益重要。近期机制可解释性研究广泛报道,神经网络在其表征空间中将有意义概念表示为线性方向,并常常以叠加方式编码多种概念。为此,各种稀疏字典学习方法,包括稀疏自编码器、转录编码器和交叉编码器,被用于训练具有稀疏约束的辅助模型,以将这些叠加概念解耦为单语义特征。这些方法是现代机制可解释性的核心,但在实践中它们始终产生多语义特征、特征吸收和死亡神经元,而对这些现象出现原因的理论理解极为有限。现有的理论工作仅限于权重共享的稀疏自编码器,使得更广泛的稀疏字典学习方法缺乏形式化理论基础。我们提出了首个统一理论框架,将所有主要的稀疏字典学习变体归结为单一的分段双凸优化问题,并刻画了其全局解集合、不可辨识性和虚假最优值。该分析为特征吸收和死亡神经元提供了原理性解释。为了在完全已知真实数据的情况下揭示这些病理现象,我们引入了线性表征基准。受我们理论的启发,我们提出了特征锚定——一种恢复稀疏字典学习可辨识性的新技术,在合成基准和真实神经表征上大幅提升了特征恢复效果。

0
下载
关闭预览

相关内容

可解释的机器学习模型和架构
专知会员服务
92+阅读 · 2023年9月17日
【2023新书】深度学习中的可解释性,486页pdf
专知会员服务
155+阅读 · 2023年5月12日
【MIT博士论文】机器学习中的稀疏性:理论与应用,122页pdf
机器学习的可解释性
专知会员服务
69+阅读 · 2020年12月18日
《可解释的机器学习-interpretable-ml》238页pdf
专知会员服务
210+阅读 · 2020年2月24日
深度学习可解释性研究进展
专知
19+阅读 · 2020年6月26日
【资源推荐】AI可解释性资源汇总
专知
47+阅读 · 2019年4月24日
【学界】从可视化到新模型:纵览深度学习的视觉可解释性
GAN生成式对抗网络
10+阅读 · 2018年3月4日
【学界】机器学习模型的“可解释性”到底有多重要?
GAN生成式对抗网络
12+阅读 · 2018年3月3日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
5+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
4+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
6+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员