Prompting techniques such as Chain-of-Thought (CoT) and Program-of-Thought (PoT) improve LLM mathematical reasoning by structuring intermediate steps in natural language or code. However, applied mathematics problems in domains like finance, physics, and cryptography often require recalling or deriving governing equations, a step that current approaches do not explicitly leverage. We propose Formula-One Prompting (F-1), a two-phase approach that uses mathematical equations as an intermediate representation before adaptive solving. F-1 first formulates governing equations from problem descriptions, then selects a solving strategy among CoT, PoT, or direct computation based on the generated equations, all within a single LLM call. Results across five models and four benchmarks show F-1 outperforms CoT by +5.76% and PoT by +8.42% on average. Crucially, gains are largest in applied domains: +13.30% on FinanceMath over CoT, and within OlympiadBench, larger gains on physics (+2.55%) than pure math (+0.44%). This demonstrates that F-1 is more effective than CoT in applied mathematics problems.


翻译:诸如思维链(CoT)和程序思维(PoT)等提示技术通过用自然语言或代码构建中间步骤,改进了大型语言模型的数学推理能力。然而,在金融、物理和密码学等领域,应用数学问题通常需要回忆或推导控制方程,而当前方法并未明确利用这一步骤。我们提出了公式一提示(F-1),这是一种两阶段方法,在自适应求解之前使用数学方程作为中间表示。F-1首先根据问题描述构建控制方程,然后基于生成的方程在CoT、PoT或直接计算中选择求解策略,整个过程在单次LLM调用中完成。在五个模型和四个基准测试上的结果表明,F-1平均优于CoT 5.76%,优于PoT 8.42%。关键的是,在应用领域收益最大:在FinanceMath上比CoT高出13.30%,在OlympiadBench中,物理问题上的收益(+2.55%)远大于纯数学问题(+0.44%)。这证明F-1在处理应用数学问题时比CoT更为有效。

0
下载
关闭预览

相关内容

数学是关于数量、结构、变化等主题的探索。
多模态推理的基础、方法与未来前沿
专知会员服务
27+阅读 · 2025年7月6日
AI进入推理模型时代,一文带你读懂思维链
专知会员服务
39+阅读 · 2025年3月17日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
深度学习在数学推理中的应用综述
专知会员服务
48+阅读 · 2022年12月25日
面试时让你手推公式不在害怕 | 梯度下降
计算机视觉life
14+阅读 · 2019年3月27日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员