Large Reasoning Models like DeepSeek-R1 mark a fundamental shift in how LLMs approach complex problems. Instead of directly producing an answer for a given input, DeepSeek-R1 creates detailed multi-step reasoning chains, seemingly "thinking" about a problem before providing an answer. This reasoning process is publicly available to the user, creating endless opportunities for studying the reasoning behaviour of the model and opening up the field of Thoughtology. Starting from a taxonomy of DeepSeek-R1's basic building blocks of reasoning, our analyses on DeepSeek-R1 investigate the impact and controllability of thought length, management of long or confusing contexts, cultural and safety concerns, and the status of DeepSeek-R1 vis-à-vis cognitive phenomena, such as human-like language processing and world modelling. Our findings paint a nuanced picture. Notably, we show DeepSeek-R1 has a 'sweet spot' of reasoning, where extra inference time can impair model performance. Furthermore, we find a tendency for DeepSeek-R1 to persistently ruminate on previously explored problem formulations, obstructing further exploration. We also note strong safety vulnerabilities of DeepSeek-R1 compared to its non-reasoning counterpart, which can also compromise safety-aligned LLMs.


翻译:以 DeepSeek-R1 为代表的大型推理模型标志着大语言模型处理复杂问题方式的根本性转变。DeepSeek-R1 并非直接为给定输入生成答案,而是构建详细的多步骤推理链,在给出答案前似乎对问题进行“思考”。该推理过程对用户公开,为研究模型的推理行为提供了无限可能,并由此开辟了“思维学”这一研究领域。基于对 DeepSeek-R1 推理基本构建模块的分类,我们的分析探讨了思维长度的影响与可控性、长上下文或混淆上下文的管理、文化及安全问题,以及 DeepSeek-R1 在类人语言处理与世界建模等认知现象方面的表现。我们的研究呈现出一幅细致入微的图景。特别地,我们发现 DeepSeek-R1 存在一个推理“最佳区间”,额外的推理时间反而可能损害模型性能。此外,我们发现 DeepSeek-R1 倾向于持续纠结于已探索过的问题表述,阻碍进一步探索。我们还注意到,相较于其非推理版本,DeepSeek-R1 存在显著的安全脆弱性,这也可能危及经过安全对齐的大语言模型。

0
下载
关闭预览

相关内容

别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
哈工大团队:首篇DeepSeek R1的多语言能力全面分析!
专知会员服务
43+阅读 · 2025年2月22日
DeepSeek R1和推理模型,我有几点看法
专知会员服务
38+阅读 · 2025年2月10日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
DeepMind开源最牛无监督学习BigBiGAN预训练模型
新智元
10+阅读 · 2019年10月10日
理解人类推理的深度学习
论智
19+阅读 · 2018年11月7日
Deep Image Prior:深度卷积网络先天就理解自然图像
极市平台
10+阅读 · 2017年12月5日
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
别想太多:高效 R1 风格大型推理模型综述
专知会员服务
23+阅读 · 2025年8月5日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
Vision-R1:激励多模态大语言模型中的推理能力
专知会员服务
23+阅读 · 2025年3月12日
哈工大团队:首篇DeepSeek R1的多语言能力全面分析!
专知会员服务
43+阅读 · 2025年2月22日
DeepSeek R1和推理模型,我有几点看法
专知会员服务
38+阅读 · 2025年2月10日
最全面《DeepSeek R1》技术文章
专知会员服务
90+阅读 · 2025年1月29日
相关基金
国家自然科学基金
6+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员