We propose a geometric taxonomy of large language model hallucinations based on observable signatures in token embedding cluster structure. By analyzing the static embedding spaces of 11 transformer models spanning encoder (BERT, RoBERTa, ELECTRA, DeBERTa, ALBERT, MiniLM, DistilBERT) and decoder (GPT-2) architectures, we identify three operationally distinct hallucination types: Type 1 (center-drift) under weak context, Type 2 (wrong-well convergence) to locally coherent but contextually incorrect cluster regions, and Type 3 (coverage gaps) where no cluster structure exists. We introduce three measurable geometric statistics: α (polarity coupling), \b{eta} (cluster cohesion), and λ_s (radial information gradient). Across all 11 models, polarity structure (α > 0.5) is universal (11/11), cluster cohesion (\b{eta} > 0) is universal (11/11), and the radial information gradient is significant (9/11, p < 0.05). We demonstrate that the two models failing λ_s significance -- ALBERT and MiniLM -- do so for architecturally explicable reasons: factorized embedding compression and distillation-induced isotropy, respectively. These findings establish the geometric prerequisites for type-specific hallucination detection and yield testable predictions about architecture-dependent vulnerability profiles.


翻译:我们提出了一种基于标记嵌入簇结构中可观测特征的大语言模型幻觉几何分类法。通过分析涵盖编码器(BERT、RoBERTa、ELECTRA、DeBERTa、ALBERT、MiniLM、DistilBERT)和解码器(GPT-2)架构的11个Transformer模型的静态嵌入空间,我们识别出三种操作上不同的幻觉类型:类型1(中心漂移)出现在弱上下文条件下,类型2(错误势阱收敛)指向局部连贯但上下文错误的簇区域,类型3(覆盖间隙)则不存在任何簇结构。我们引入了三个可测量的几何统计量:α(极性耦合度)、β(簇内聚度)和λ_s(径向信息梯度)。在所有11个模型中,极性结构(α > 0.5)具有普遍性(11/11),簇内聚度(β > 0)具有普遍性(11/11),而径向信息梯度具有显著性(9/11,p < 0.05)。我们证明,未能通过λ_s显著性检验的两个模型——ALBERT和MiniLM——分别源于其架构上的可解释原因:因子化嵌入压缩和蒸馏导致的各向同性。这些发现为特定类型幻觉检测建立了几何先决条件,并产生了关于架构依赖性脆弱性特征的可检验预测。

0
下载
关闭预览

相关内容

视觉语言大模型的幻觉综述:成因、评估与治理
专知会员服务
18+阅读 · 2025年6月21日
大型视觉语言模型中幻觉现象的综述
专知会员服务
47+阅读 · 2024年10月24日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
《多模态大型语言模型的幻觉现象》综述
专知会员服务
46+阅读 · 2024年4月30日
《大型视觉语言模型中的幻觉现象》综述
专知会员服务
57+阅读 · 2024年2月2日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
深度学习文本分类方法综述(代码)
中国人工智能学会
28+阅读 · 2018年6月16日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
9+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员