The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

Decentralized Autonomous Organizations (DAOs) are inclined explore Small Language Models (SLMs) as edge-native constitutional firewalls to vet proposals and mitigate semantic social engineering. While scaling inference-time compute (System 2) enhances formal logic, its efficacy in highly adversarial, cryptoeconomic governance environments remains underexplored. To address this, we introduce Sentinel-Bench, an 840-inference empirical framework executing a strict intra-model ablation on Qwen-3.5-9B. By toggling latent reasoning across frozen weights, we isolate the impact of inference-time compute against an adversarial Optimism DAO dataset. Our findings reveal a severe compute-accuracy inversion. The autoregressive baseline (System 1) achieved 100% adversarial robustness, 100% juridical consistency, and state finality in under 13 seconds. Conversely, System 2 reasoning introduced catastrophic instability, fundamentally driven by a 26.7% Reasoning Non-Convergence (cognitive collapse) rate. This collapse degraded trial-to-trial consensus stability to 72.6% and imposed a 17x latency overhead, introducing critical vulnerabilities to Governance Extractable Value (GEV) and hardware centralization. While rare (1.5% of adversarial trials), we empirically captured "Reasoning-Induced Sycophancy," where the model generated significantly longer internal monologues (averaging 25,750 characters) to rationalize failing the adversarial trap. We conclude that for edge-native SLMs operating under Byzantine Fault Tolerance (BFT) constraints, System 1 parameterized intuition is structurally and economically superior to System 2 iterative deliberation for decentralized consensus. Code and Dataset: https://github.com/smarizvi110/sentinel-bench

翻译：去中心化自治组织（DAO）倾向于探索将小语言模型（SLM）作为边缘原生治理防火墙，用于审查提案并缓解语义社会工程攻击。虽然扩展推理时计算（系统2）能增强形式逻辑能力，但该方法在高对抗性的加密经济治理环境中的有效性仍未充分探究。为解决此问题，我们提出Sentinel-Bench——一个包含840次推理的实证框架，在冻结权重的Qwen-3.5-9B模型上执行严格的模型内消融实验。通过切换潜在推理路径，我们分离出推理时计算对对抗性Optimism DAO数据集的影响。研究发现严重的计算-准确性反转现象：自回归基线（系统1）在13秒内实现了100%的对抗鲁棒性、100%的司法一致性及状态最终性。相反，系统2推理引入了灾难性不稳定性，根本原因在于26.7%的推理不收敛率（认知崩溃）。这种崩溃降低了72.6%的试验间共识稳定性，并带来17倍的延迟开销，从而对治理可提取价值（GEV）和硬件中心化引入关键漏洞。尽管罕见（占对抗性试验的1.5%），我们实证捕获了"推理诱导的谄媚"现象——模型生成显著更长的内部独白（平均25,750字符）以合理化对对抗性陷阱的失守。我们得出结论：在拜占庭容错（BFT）约束下运行边缘原生SLM时，对于去中心化共识而言，系统1的参数化直觉在结构性和经济性上均优于系统2的迭代推理。代码与数据集：https://github.com/smarizvi110/sentinel-bench