Inference-time scaling can amplify reasoning pathologies: sycophancy, rung collapse, and premature certainty. We present RAudit, a diagnostic protocol for auditing LLM reasoning without ground truth access. The key constraint is blindness: the auditor evaluates only whether derivation steps support conclusions, enabling detection of trace-output inconsistency and, when latent competence exists, its recovery. RAudit measures process quality via CRIT-based reasonableness scores and varies critique formulation to study how social framing affects model response. We prove bounded correction and $O(\log(1/ε))$ termination. Experiments on mathematical reasoning (CAP-GSM8K) and causal judgment (CausalL2) reveal four mechanisms explaining model unreliability: (1) Latent Competence Suppression, where models derive correct answers then overwrite them under social pressure; (2) The False Competence Trap, where weaker judges mask sycophancy that stronger judges expose; (3) The Complexity-Vulnerability Tradeoff, where causal tasks induce more than 10 times higher sycophancy than mathematical tasks; and (4) Iatrogenic Critique, where authoritative correction harms weaker models. These findings challenge assumptions that capability implies robustness and that stronger feedback yields better outputs.


翻译:推理时扩展会放大推理病理现象:谄媚性、阶梯塌缩与过早确定性。本文提出RAudit,一种无需访问真实值的LLM推理诊断审计协议。其核心约束在于盲式性:审计者仅评估推导步骤是否支持结论,从而能够检测轨迹输出不一致性,并在潜在能力存在时实现其恢复。RAudit通过基于CRIT的合理性评分衡量过程质量,并通过调整批判表述研究社会框架如何影响模型响应。我们证明了有界修正性及$O(\log(1/ε))$终止复杂度。在数学推理(CAP-GSM8K)与因果判断(CausalL2)任务上的实验揭示了模型不可靠性的四种机制:(1)潜在能力抑制:模型推导出正确答案后在社会压力下将其覆盖;(2)虚假能力陷阱:较弱评判者掩盖的谄媚行为会被较强评判者暴露;(3)复杂度-脆弱性权衡:因果任务引发的谄媚性比数学任务高10倍以上;(4)医源性批判:权威性修正反而损害较弱模型。这些发现挑战了“能力意味着鲁棒性”及“更强反馈产生更好输出”的固有假设。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
LlamaV-o1: 重新思考大语言模型中的逐步视觉推理
专知会员服务
9+阅读 · 2025年1月14日
R语言数据挖掘利器:Rattle包
R语言中文社区
21+阅读 · 2018年11月17日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员