Recent work shows superior performance when using large language models (LLMs) as formalizers instead of as end-to-end solvers for symbolic reasoning problems. Given the problem description, the LLM generates a formal program that derives a solution via an external solver. We systematically investigate the formalization capability of LLMs on real-life constraint satisfaction problems on 4 benchmarks, 6 LLMs, and 2 types of formal languages. We show that LLM-as-formalizer by no means trivializes the problem but underperforms LLM-as-solver in 15 out of 24 model-dataset combinations, despite the former's verifiability and interpretability. Although the formalization space is magnitudes smaller than the search space, our scaling analysis shows that LLM-as-formalizer still drastically degrades as problem complexity increases similar to LLM-as-solver. To better understand this limitation, we observe excessive, solver-like reasoning tokens that sometimes lead to hard-coded solutions, highlighting a key challenge for improving LLM-based formalization.


翻译:近期研究表明,在符号推理问题中,使用大型语言模型(LLM)作为形式化工具而非端到端求解器时,性能表现更为优越。给定问题描述后,LLM生成的形式化程序可通过外部求解器导出解决方案。我们针对4个基准、6种LLM和2种形式语言,系统研究了LLM在现实约束满足问题中的形式化能力。研究表明,LLM-形式化工具并未使问题变得简单,相反在24个模型-数据集组合中有15个的表现不及LLM-求解器,尽管前者具备可验证性和可解释性。尽管形式化空间远小于搜索空间,但我们的规模分析显示,随着问题复杂度增加,LLM-形式化工具的性能退化程度与LLM-求解器类似。为了深入理解这一局限,我们观察到大量类似求解器的推理标记,这些标记有时会导致硬编码解决方案,凸显了改进基于LLM形式化方法的关键挑战。

0
下载
关闭预览

相关内容

大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
大语言模型中的隐式推理:综合综述
专知会员服务
33+阅读 · 2025年9月4日
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
【伯克利博士论文】规模化教大型语言模型使用工具
专知会员服务
29+阅读 · 2024年5月11日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
4+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
4+阅读 · 6月22日
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
大语言模型中的检索与结构化增强生成综述
专知会员服务
34+阅读 · 2025年9月17日
大语言模型中的隐式推理:综合综述
专知会员服务
33+阅读 · 2025年9月4日
结合知识增强的大型语言模型复杂问题求解综述
专知会员服务
16+阅读 · 2025年5月7日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
50+阅读 · 2025年1月17日
大型概念模型:在句子表示空间中的语言建模
专知会员服务
18+阅读 · 2024年12月14日
【伯克利博士论文】规模化教大型语言模型使用工具
专知会员服务
29+阅读 · 2024年5月11日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员