Benchmark saturation and contamination have obscured genuine advances in reasoning for large language models (LLMs). We introduce NazoNazo Benchmark, a low-cost, renewable test built from Japanese children's riddles that demand insight-based reasoning, or representational shifts rather than knowledge recall. We evaluate 38 frontier LLMs (2023-2025) on 201 riddles and a 120-item human-comparison subset, finding that non-reasoning models average 7.6%, reasoning models 17.6%, and humans ~53% accuracy. Importantly, thought-log analysis reveals that reasoning in Japanese did not necessarily improve accuracy, indicating that language understanding alone is insufficient for insight reasoning. Notably, models sometimes generated correct candidates but failed to endorse them, suggesting weak metacognitive control rather than a lack of knowledge. This "verification failure" indicates that CoT outputs can reflect genuine intermediate reasoning states rather than post-hoc rationalizations. By exposing this metacognitive bottleneck - models' inability to recognize when they are right - the benchmark provides a scalable, cross-linguistic testbed for studying machine insight, confidence calibration, and self-evaluation. NazoNazo Benchmark thus offers not only a fresh challenge to current LLMs but also a concrete target for developing AI metacognitive psychology and enhancing machine Aha! capability.


翻译:基准测试的饱和与污染已掩盖了大型语言模型(LLM)在推理能力方面的真实进展。我们提出了NazoNazo Benchmark,这是一个低成本、可再生的测试集,基于日本儿童谜语构建,要求基于洞察力的推理或表征转换,而非知识回忆。我们在201个谜语及包含120项的人机对比子集上评估了38个前沿LLM(2023-2025年),发现非推理模型的平均准确率为7.6%,推理模型为17.6%,而人类约为53%。重要的是,思维日志分析表明,使用日语进行推理并不必然提升准确率,这显示仅靠语言理解不足以实现洞察推理。值得注意的是,模型有时能生成正确答案候选项却未能最终采纳,这表明其问题在于元认知控制薄弱而非知识缺失。这种“验证失败”现象表明,思维链(CoT)输出可能反映真实的中间推理状态,而非事后合理化。通过揭示这一元认知瓶颈——即模型无法识别自身何时正确——该基准为研究机器洞察力、置信度校准与自我评估提供了一个可扩展的跨语言测试平台。因此,NazoNazo Benchmark不仅为当前LLM提出了新的挑战,也为发展AI元认知心理学与增强机器的“顿悟”能力提供了具体目标。

0
下载
关闭预览

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
37+阅读 · 2025年6月2日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
深入理解BERT Transformer ,不仅仅是注意力机制
大数据文摘
22+阅读 · 2019年3月19日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
大型语言模型推理增强外部知识:综述
专知会员服务
37+阅读 · 2025年6月2日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员