Sparse autoencoders (SAEs) have proven effective for extracting monosemantic features from large language models (LLMs), yet these features are typically identified in isolation. However, broad evidence suggests that LLMs capture the intrinsic structure of natural language, where the phenomenon of "feature splitting" in particular indicates that such structure is hierarchical. To capture this, we propose the Hierarchical Sparse Autoencoder (HSAE), which jointly learns a series of SAEs and the parent-child relationships between their features. HSAE strengthens the alignment between parent and child features through two novel mechanisms: a structural constraint loss and a random feature perturbation mechanism. Extensive experiments across various LLMs and layers demonstrate that HSAE consistently recovers semantically meaningful hierarchies, supported by both qualitative case studies and rigorous quantitative metrics. At the same time, HSAE preserves the reconstruction fidelity and interpretability of standard SAEs across different dictionary sizes. Our work provides a powerful, scalable tool for discovering and analyzing the multi-scale conceptual structures embedded in LLM representations.


翻译:稀疏自编码器(SAEs)已被证明能有效从大语言模型(LLMs)中提取单语义特征,但这些特征通常被孤立地识别。然而,广泛证据表明LLMs捕捉了自然语言的内在结构,其中“特征分裂”现象尤其表明这种结构是层次化的。为捕捉这一特性,我们提出了分层稀疏自编码器(HSAE),它能联合学习一系列SAE及其特征间的父子关系。HSAE通过两种新颖机制——结构约束损失和随机特征扰动机制——加强了父子特征间的对齐。在不同LLM和网络层上的大量实验表明,HSAE能持续恢复具有语义意义的层次结构,这得到了定性案例研究和严格定量指标的双重支持。同时,HSAE在不同字典大小下均保持了标准SAE的重建保真度和可解释性。我们的工作为发现和分析嵌入在LLM表征中的多尺度概念结构提供了一个强大且可扩展的工具。

0
下载
关闭预览

相关内容

稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大模型如何迭代?北大等《大型语言模型自我进化》综述
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
31+阅读 · 2024年2月8日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
【干货】深入理解变分自编码器
专知
21+阅读 · 2018年3月22日
【干货】深入理解自编码器(附代码实现)
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大模型如何迭代?北大等《大型语言模型自我进化》综述
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
31+阅读 · 2024年2月8日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员