Large language models (LLMs) trained with canonical tokenization exhibit surprising robustness to non-canonical inputs such as character-level tokenization, yet the mechanisms underlying this robustness remain unclear. We study this phenomenon through mechanistic interpretability and identify a core process we term word recovery. We first introduce a decoding-based method to detect word recovery, showing that hidden states reconstruct canonical word-level token identities from character-level inputs. We then provide causal evidence by removing the corresponding subspace from hidden states, which consistently degrades downstream task performance. Finally, we conduct a fine-grained attention analysis and show that in-group attention among characters belonging to the same canonical token is critical for word recovery: masking such attention in early layers substantially reduces both recovery scores and task performance. Together, our findings provide a mechanistic explanation for tokenization robustness and identify word recovery as a key mechanism enabling LLMs to process character-level inputs.


翻译:采用规范分词训练的大型语言模型(LLMs)对非规范输入(如字符级分词)展现出惊人的鲁棒性,但其内在机制尚不明确。本研究通过可解释性机制分析这一现象,发现了一个核心过程——词汇恢复。我们首先提出基于解码的检测方法,证明隐藏状态能够从字符级输入中重构规范词汇级分词标识。随后通过因果性验证,在隐藏状态中移除相应子空间会导致下游任务性能持续下降。最后进行细粒度注意力分析,发现属于同一规范分词的字符组内注意力对词汇恢复至关重要:在早期层掩蔽此类注意力会显著降低恢复分数与任务性能。综合而言,本研究为分词鲁棒性提供了机制性解释,并确立词汇恢复作为LLMs处理字符级输入的关键机制。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
人工智能在战场行动中的演进及伊朗案例
专知会员服务
4+阅读 · 4月18日
美AI公司Anthropic推出网络安全模型“Mythos”
专知会员服务
2+阅读 · 4月18日
【博士论文】面向城市环境的可解释计算机视觉
大语言模型的自改进机制:技术综述与未来展望
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 4月18日
相关VIP内容
稀疏自编码器综述:解释大语言模型的内部机制
专知会员服务
17+阅读 · 2025年12月27日
大语言模型机器遗忘综述
专知会员服务
18+阅读 · 2025年11月2日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
《大型语言模型持续学习》综述
专知会员服务
93+阅读 · 2024年4月26日
GPT系列大模型在自然语言处理任务中的鲁棒性研究
专知会员服务
30+阅读 · 2024年3月22日
大型语言模型在预测和异常检测中的应用综述
专知会员服务
70+阅读 · 2024年2月19日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员