Verifying whether a language model is genuinely reasoning or pattern-matching remains an open problem: learned verifiers are expensive, and output-based heuristics are brittle. We show that valid mathematical reasoning induces a measurable, training-free spectral signature in transformer attention. By treating each attention matrix as a weighted token graph, we extract four diagnostics: Fiedler value, High-Frequency Energy Ratio (HFER), spectral entropy, and smoothness, that require no learned parameters. Experiments across seven models from four architectural families yield effect sizes up to Cohen's $d = 3.30$ ($p < 10^{-116}$), enabling $85$--$96\%$ single-threshold classification accuracy. Two findings sharpen the interpretation. First, \emph{Platonic validity}: the spectral signal tracks logical coherence rather than compiler acceptance, proofs rejected for timeouts or missing imports are correctly classified as valid, a distinction confirmed by a manual audit ($κ= 0.82$, $n = 51$). Second, \emph{architectural determinism}: Sliding Window Attention shifts the discriminative feature from HFER to smoothness ($d = 2.09$, $p < 10^{-48}$), showing that attention design governs which spectral channel encodes reasoning quality. Causal ablation confirms the signature traces induction-head circuits. The method generalises to informal chain-of-thought ($d = 0.78$, $p < 10^{-3}$), and in proof search, HFER reranking improves Best-of-16 Pass@1 by $+4.4$--$6.6$\%, matching $98\%$ of the AUC of fully supervised probes with zero labels. Spectral graph analysis is a principled, architecture-aware primitive for reasoning verification.


翻译:验证语言模型是真正推理还是模式匹配仍是一个悬而未决的问题:学习型验证器成本高昂,且基于输出的启发式方法脆弱。我们证明,有效数学推理会在Transformer注意力中诱导出可测量、无需训练的谱特征。通过将每个注意力矩阵视为加权令牌图,我们提取了四个诊断指标:Fiedler值、高频能量比(HFER)、谱熵和平滑度,这些指标无需学习参数。在来自四个架构家族的七个模型上的实验表明,效应量高达Cohen's $d = 3.30$($p < 10^{-116}$),实现了$85$--$96\%$的单阈值分类准确率。两个发现深化了理解。首先,*柏拉图式有效性*:谱信号追踪逻辑连贯性而非编译器接受度——因超时或缺失导入而被拒绝的证明被正确分类为有效,这一区分通过人工审计得到确认($κ= 0.82$,$n = 51$)。其次,*架构决定论*:滑动窗口注意力将判别特征从HFER转移至平滑度($d = 2.09$,$p < 10^{-48}$),表明注意力设计决定了哪个谱通道编码推理质量。因果消融实验确认该特征追踪归纳头电路。该方法泛化至非形式化思维链($d = 0.78$,$p < 10^{-3}$),在证明搜索中,HFER重排序将Best-of-16 Pass@1提升了$+4.4$--$6.6\%$,在零标签情况下达到了完全监督探针AUC的$98\%$。谱图分析是一种有原则且架构感知的推理验证原语。

0
下载
关闭预览

相关内容

大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
知识图谱可解释推理研究综述
专知会员服务
178+阅读 · 2021年12月31日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
1+阅读 · 今天14:45
定向能反无人机系统最新发展动态
专知会员服务
5+阅读 · 今天13:50
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 今天13:33
相关VIP内容
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
「可解释知识图谱推理」最新方法综述
专知会员服务
89+阅读 · 2022年12月17日
知识图谱可解释推理研究综述
专知会员服务
178+阅读 · 2021年12月31日
【课程推荐】 深度学习中的几何(Geometry of Deep Learning)
专知会员服务
59+阅读 · 2019年11月10日
相关资讯
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
【清华大学】元知识图谱推理
专知
129+阅读 · 2019年9月2日
论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
论文浅尝 | 基于神经网络的知识推理
开放知识图谱
15+阅读 · 2018年3月12日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员