Mathematical problem solving is a fundamental benchmark for assessing the reasoning capabilities of artificial intelligence and a gateway to applications in education, science, and engineering where reliable symbolic reasoning is essential. Although recent advances in multi-agent LLM-based systems have enhanced their mathematical reasoning capabilities, they still lack a reliably revisable representation of the reasoning process. Existing agents either operate in rigid sequential pipelines that cannot correct earlier steps or rely on heuristic self-evaluation that can fail to identify and fix errors. In addition, programmatic context can distract language models and degrade accuracy. To address these gaps, we introduce Iteratively Improved Program Construction (IIPC), a reasoning method that iteratively refines programmatic reasoning chains and combines execution feedback with the native Chain-of-thought abilities of the base LLM to maintain high-level contextual focus. IIPC surpasses competing approaches in the majority of reasoning benchmarks on multiple base LLMs. All code and implementations are released as open source.


翻译:数学问题求解是评估人工智能推理能力的基本基准,也是教育、科学和工程领域中需要可靠符号推理应用的关键入口。尽管基于多智能体大语言模型系统的最新进展提升了其数学推理能力,但这些系统仍缺乏对推理过程可靠且可修正的表示。现有智能体要么在僵化的顺序流程中运行而无法修正早期步骤,要么依赖启发式自我评估,而后者可能无法识别和修复错误。此外,程序化上下文可能分散语言模型的注意力并降低准确性。为解决这些不足,我们提出了迭代改进程序构建(IIPC),这是一种迭代优化程序化推理链的推理方法,它将执行反馈与基础大语言模型固有的思维链能力相结合,以保持高层次的情境聚焦。在多个基础大语言模型的大多数推理基准测试中,IIPC均超越了竞争方法。所有代码与实现均已开源发布。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
增强大模型智能:数学推理能力的提升策略与实践
专知会员服务
25+阅读 · 2024年8月25日
深度学习在数学推理中的应用综述
专知会员服务
48+阅读 · 2022年12月25日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
「因果推理」概述论文,13页pdf
专知
16+阅读 · 2021年3月20日
展望:模型驱动的深度学习
人工智能学家
12+阅读 · 2018年1月23日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
2+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
43+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员