The prevailing question in LM performing arithmetic is whether these models learn to truly compute or if they simply master superficial pattern matching. In this paper, we argues for the latter, presenting evidence that LMs act as greedy symbolic learners, prioritizing the simplest possible shortcuts to fit the stats of dataset to solve arithmetic tasks. To investigate this, we introduce subgroup induction, a practical framework adapted from Solomonoff Induction (SI), one of the most powerful universal predictors. Our framework analyzes arithmetic problems by breaking them down into subgroups-minimal mappings between a few input digits and a single output digit. Our primary metric, subgroup quality, measures the viability of these shortcuts. Experiments reveal a distinct U-shaped accuracy pattern in multi-digit multiplication: LMs quickly master the first and last output digits while struggling with those in the middle. We demonstrate this U-shape is not coincidental; it perfectly mirrors the quality of the simplest possible subgroups, those requiring the fewest input tokens. This alignment suggests a core learning mechanism: LMs first learn easy, low-token shortcuts and only incorporate more complex, multi-token patterns as training progresses. They do not learn the algorithm of multiplication but rather a hierarchy of increasingly complex symbol-to-symbol mappings. Ultimately, our findings suggest that the path to arithmetic mastery for LMs is not paved with algorithms, but with a cascade of simple, hierarchically-learned symbolic shortcuts.


翻译:语言模型执行算术运算的核心争议在于:这些模型究竟是学会了真正的计算能力,还是仅仅掌握了表面化的模式匹配。本文主张后者,并提出证据表明语言模型扮演着贪婪的符号学习器角色——它们优先采用最简单的捷径来拟合数据集统计特征,从而解决算术任务。为探究此问题,我们引入了子群归纳这一实践框架,该框架改编自所罗门诺夫归纳(SI)这一最强大的通用预测器之一。我们的框架通过将算术问题分解为子群——即少数输入数字与单个输出数字之间的最小映射——来进行分析。我们的核心度量指标“子群质量”用于评估这些捷径的可行性。实验揭示了多位数乘法中一个独特的U形准确率模式:语言模型能快速掌握首位和末位输出数字,却在中间位数上表现挣扎。我们证明这一U形模式并非偶然;它完美地反映了最简单子群(即所需输入标记最少的子群)的质量分布。这种对应关系揭示了一种核心学习机制:语言模型首先学习简单的低标记量捷径,仅在训练推进过程中才逐步纳入更复杂的多标记模式。它们并未学习乘法算法,而是习得了一种由简至繁的符号到符号映射层级体系。最终,我们的研究表明:语言模型通向算术精通的路径并非由算法铺就,而是由一系列简单的、层级化习得的符号捷径所构成。

0
下载
关闭预览

相关内容

【MIT博士论文】语言模型的推理时学习算法
专知会员服务
30+阅读 · 2025年12月24日
【NTU博士论文】让语言模型成为更类人的学习者
专知会员服务
23+阅读 · 2025年9月23日
【ETZH博士论文】语言模型编程
专知会员服务
25+阅读 · 2025年6月14日
【NTU博士论文】让语言模型更接近人类学习者
专知会员服务
18+阅读 · 2025年5月3日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
26+阅读 · 2024年11月27日
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
一文读懂机器学习模型的选择与取舍
DBAplus社群
13+阅读 · 2019年8月25日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
推荐|机器学习中的模型评价、模型选择和算法选择!
全球人工智能
10+阅读 · 2018年2月5日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
VIP会员
相关VIP内容
【MIT博士论文】语言模型的推理时学习算法
专知会员服务
30+阅读 · 2025年12月24日
【NTU博士论文】让语言模型成为更类人的学习者
专知会员服务
23+阅读 · 2025年9月23日
【ETZH博士论文】语言模型编程
专知会员服务
25+阅读 · 2025年6月14日
【NTU博士论文】让语言模型更接近人类学习者
专知会员服务
18+阅读 · 2025年5月3日
面向统计学家的大型语言模型概述
专知会员服务
32+阅读 · 2025年3月16日
【阿姆斯特丹博士论文】在语言模型中寻找结构
专知会员服务
26+阅读 · 2024年11月27日
【AAAI2024】大型语言模型是神经符号推理器
专知会员服务
37+阅读 · 2024年1月18日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员