This paper explores the system 1 thinking capability of Large Reasoning Models (LRMs), the intuitive ability to respond efficiently with minimal token usage. While existing LRMs rely on long-chain reasoning and excel at complex tasks, their system 1 thinking ability remains largely underexplored. This capability is essential as it reflects models' difficulty awareness and reasoning efficiency, both critical for real-world applications. We propose S1-Bench, a multi-domain, multilingual benchmark comprising model-simple system 1 questions. Our investigation of 28 LRMs reveals under-accuracy and inefficiency on system 1 problems. We find existing efficient reasoning methods either generalize poorly to simple questions or sacrifice performance for efficiency. Further exploration uncovers LRMs' early difficulty awareness accompanied by lower confidence, and shows that problem difficulty is implicitly encoded in hidden states.


翻译:本文探索了大型推理模型(LRMs)的系统1思维能力,即利用最少的令牌使用量高效响应的直觉能力。尽管现有LRMs依赖长链推理并在复杂任务中表现出色,但其系统1思维能力仍鲜有研究。这一能力至关重要,因为它反映了模型对问题难度的感知和推理效率,两者对实际应用均不可或缺。我们提出了S1-Bench,一个包含模型简单系统1问题的多领域、多语言基准测试集。通过对28个LRMs的调研,我们发现其在系统1问题上存在准确性不足和效率低下的问题。现有高效推理方法要么对简单问题的泛化能力差,要么以牺牲性能为代价提升效率。进一步探索揭示了LRMs早期对问题难度的感知伴随较低的置信度,并且问题难度被隐含地编码在隐藏状态中。

0
下载
关闭预览

相关内容

《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
从系统1到系统2:推理大语言模型综述
专知会员服务
43+阅读 · 2025年2月25日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
推荐系统(一):推荐系统基础
菜鸟的机器学习
25+阅读 · 2019年9月2日
基于模型系统的系统设计
科技导报
10+阅读 · 2019年4月25日
【推荐系统】一文读懂推荐系统知识体系
产业智能官
43+阅读 · 2017年10月31日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 3月19日
VIP会员
相关主题
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
《大型推理模型的安全性:综述》
专知会员服务
24+阅读 · 2025年4月25日
小型推理模型简要综述:训练、推理、应用与研究方向
专知会员服务
42+阅读 · 2025年4月16日
大规模推理模型的高效推理:综述
专知会员服务
21+阅读 · 2025年4月3日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
停止过度思考:大型语言模型高效推理研究综述
专知会员服务
37+阅读 · 2025年3月21日
从系统1到系统2:推理大语言模型综述
专知会员服务
43+阅读 · 2025年2月25日
【大模型对齐】利用对齐使大型语言模型更好地推理
专知会员服务
48+阅读 · 2023年9月8日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
16+阅读 · 2013年12月31日
国家自然科学基金
26+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员