AlgBench：大型推理模型对算法的理解程度如何？ (AlgBench: To What Extent Do Large Reasoning Models Understand Algorithms?) - 专知论文

会员服务 ·

0

算法 · 基准 · 算法推理 · 大型推理模型 · 推理模型 ·

AlgBench: To What Extent Do Large Reasoning Models Understand Algorithms?

翻译：AlgBench：大型推理模型对算法的理解程度如何？

Henan Sun,Kaichi Yu,Yuyao Wang,Bowen Liu,Xunkai Li,Rong-Hua Li,Nuo Chen,Jia Li

from arxiv, Under review

Reasoning ability has become a central focus in the advancement of Large Reasoning Models (LRMs). Although notable progress has been achieved on several reasoning benchmarks such as MATH500 and LiveCodeBench, existing benchmarks for algorithmic reasoning remain limited, failing to answer a critical question: Do LRMs truly master algorithmic reasoning? To answer this question, we propose AlgBench, an expert-curated benchmark that evaluates LRMs under an algorithm-centric paradigm. AlgBench consists of over 3,000 original problems spanning 27 algorithms, constructed by ACM algorithmic experts and organized under a comprehensive taxonomy, including Euclidean-structured, non-Euclidean-structured, non-optimized, local-optimized, global-optimized, and heuristic-optimized categories. Empirical evaluations on leading LRMs (e.g., Gemini-3-Pro, DeepSeek-v3.2-Speciale and GPT-o3) reveal substantial performance heterogeneity: while models perform well on non-optimized tasks (up to 92%), accuracy drops sharply to around 49% on globally optimized algorithms such as dynamic programming. Further analysis uncovers \textbf{strategic over-shifts}, wherein models prematurely abandon correct algorithmic designs due to necessary low-entropy tokens. These findings expose fundamental limitations of problem-centric reinforcement learning and highlight the necessity of an algorithm-centric training paradigm for robust algorithmic reasoning.

翻译：推理能力已成为大型推理模型发展的核心焦点。尽管在MATH500和LiveCodeBench等多项推理基准测试中取得了显著进展，但现有的算法推理基准仍存在局限，未能回答一个关键问题：LRMs是否真正掌握了算法推理？为回答此问题，我们提出了AlgBench——一个由专家构建的、以算法为中心的评估基准。AlgBench包含超过3000道原创题目，涵盖27种算法，由ACM算法专家构建，并按照综合分类体系组织，包括欧几里得结构、非欧几里得结构、非优化、局部优化、全局优化及启发式优化等类别。对主流LRM（如Gemini-3-Pro、DeepSeek-v3.2-Speciale和GPT-o3）的实证评估显示出显著的性能异质性：模型在非优化任务上表现良好（最高达92%），但在动态规划等全局优化算法上的准确率骤降至约49%。进一步分析揭示了**策略性过度偏移**现象，即模型因必要的低熵标记而过早放弃正确的算法设计。这些发现暴露了以问题为中心的强化学习的根本局限，并凸显了采用以算法为中心的训练范式对于实现稳健算法推理的必要性。

0

相关内容

在数学和计算机科学之中，算法（Algorithm）为一个计算的具体步骤，常用于计算、数据处理和自动推理。精确而言，算法是一个表示为有限长列表的有效方法。算法应包含清晰定义的指令用于计算函数。来自维基百科：算法

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

大模型推理的天花板在哪里？

大模型推理的天花板在哪里？

专知会员服务

15+阅读 · 2025年6月12日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大语言模型中的逻辑推理：综述

大语言模型中的逻辑推理：综述

专知会员服务

48+阅读 · 2025年2月15日

161页《大模型推理》最新综述，涵盖650多篇大模型论文

161页《大模型推理》最新综述，涵盖650多篇大模型论文

专知会员服务

127+阅读 · 2024年1月27日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Reuse, Don't Recompute: Efficient Large Reasoning Model Inference via Memory Orchestration

Arxiv

0+阅读 · 2月2日

SokoBench: Evaluating Long-Horizon Planning and Reasoning in Large Language Models

Arxiv

0+阅读 · 1月28日

SafeRBench: Dissecting the Reasoning Safety of Large Language Models

Arxiv

0+阅读 · 1月26日

Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks

Arxiv

0+阅读 · 1月19日

Do explanations generalize across large reasoning models?

Arxiv

0+阅读 · 1月16日

Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task

Arxiv

0+阅读 · 1月12日

Evaluating Accounting Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 1月10日

ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Arxiv

0+阅读 · 1月9日

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

大型推理模型

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

【NeurIPS2025】语言模型是高效的推理者吗？——来自逻辑编程的视角

专知会员服务

17+阅读 · 2025年11月3日

大模型推理的天花板在哪里？

大模型推理的天花板在哪里？

专知会员服务

15+阅读 · 2025年6月12日

《大型推理模型的安全性：综述》

《大型推理模型的安全性：综述》

专知会员服务

24+阅读 · 2025年4月25日

大规模推理模型的高效推理：综述

大规模推理模型的高效推理：综述

专知会员服务

21+阅读 · 2025年4月3日

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

如何提升大模型通用推理能力？DeepSeek最新论文《CODEI/O：通过代码输入输出预测凝练推理模式》

专知会员服务

42+阅读 · 2025年2月16日

大语言模型中的逻辑推理：综述

大语言模型中的逻辑推理：综述

专知会员服务

48+阅读 · 2025年2月15日

161页《大模型推理》最新综述，涵盖650多篇大模型论文

161页《大模型推理》最新综述，涵盖650多篇大模型论文

专知会员服务

127+阅读 · 2024年1月27日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

「大型语言模型推理」综述

「大型语言模型推理」综述

专知会员服务

95+阅读 · 2022年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞！

新智元

13+阅读 · 2019年7月9日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

全新视角：用变分推断统一理解生成模型（VAE、GAN、AAE、ALI）

PaperWeekly

15+阅读 · 2018年7月19日

【CVPR2018】如何增强Attention Model的推理能力

【CVPR2018】如何增强Attention Model的推理能力

专知

15+阅读 · 2018年7月2日

论强化学习和概率推断的等价性：一种全新概率模型

论强化学习和概率推断的等价性：一种全新概率模型

机器之心

26+阅读 · 2018年5月5日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

相关论文

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月3日

Reuse, Don't Recompute: Efficient Large Reasoning Model Inference via Memory Orchestration

Arxiv

0+阅读 · 2月2日

SokoBench: Evaluating Long-Horizon Planning and Reasoning in Large Language Models

Arxiv

0+阅读 · 1月28日

SafeRBench: Dissecting the Reasoning Safety of Large Language Models

Arxiv

0+阅读 · 1月26日

Beyond Memorization: Testing LLM Reasoning on Unseen Theory of Computation Tasks

Arxiv

0+阅读 · 1月19日

Do explanations generalize across large reasoning models?

Arxiv

0+阅读 · 1月16日

Exploring the Meta-level Reasoning of Large Language Models via a Tool-based Multi-hop Tabular Question Answering Task

Arxiv

0+阅读 · 1月12日

Evaluating Accounting Reasoning Capabilities of Large Language Models

Arxiv

0+阅读 · 1月10日

ReasonAny: Incorporating Reasoning Capability to Any Model via Simple and Effective Model Merging

Arxiv

0+阅读 · 1月9日

Large Reasoning Models Are (Not Yet) Multilingual Latent Reasoners

Arxiv

0+阅读 · 1月6日

相关基金

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

随机Helmholtz型问题的数值方法

国家自然科学基金

0+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员