Modern AI systems have been successfully deployed to win medals at international math competitions, assist with research workflows, and prove novel technical lemmas. However, despite their progress at advanced levels of mathematics, they remain stubbornly bad at basic arithmetic, consistently failing on the simple task of adding two numbers. We present a systematic investigation of this phenomenon. We demonstrate empirically that all frontier models suffer significantly degraded accuracy for integer addition as the number of digits increases. Furthermore, we show that most errors made by these models are highly interpretable and can be attributed to either operand misalignment or a failure to correctly carry; these two error classes explain 87.9%, 62.9%, and 92.4% of Claude Opus 4.1, GPT-5, and Gemini 2.5 Pro errors, respectively. Finally, we show that misalignment errors are frequently related to tokenization, and that carrying errors appear largely as independent random failures.


翻译:现代AI系统已成功部署于在国际数学竞赛中赢得奖牌、协助研究工作流程以及证明新颖技术引理等任务。然而,尽管它们在高等数学层面取得了进展,这些系统在基础算术运算上却依然表现不佳,在简单的两数相加任务中持续出错。本文对这一现象进行了系统性研究。我们通过实证证明,所有前沿模型在整数加法运算中的准确率均随数字位数的增加而显著下降。进一步地,我们发现这些模型产生的大多数错误具有高度可解释性,可归因于操作数错位或进位计算失败:这两类错误分别解释了Claude Opus 4.1、GPT-5和Gemini 2.5 Pro模型中87.9%、62.9%和92.4%的错误案例。最后,我们证明错位错误常与分词机制相关,而进位错误则主要表现为独立的随机性失效。

0
下载
关闭预览

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文,这些论文构成了整个领域的进步,也欢迎介绍人工智能应用的论文,但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能,而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案,强调其新颖性,并对正在开发的人工智能技术进行深入的评估。 官网地址:http://dblp.uni-trier.de/db/journals/ai/
AI大模型证明了NP=P
专知会员服务
8+阅读 · 2025年8月30日
《在单智能体与多智能体AI系统中融入人类合理性》100页
可解释人工智能(XAI):从内在可解释性到大语言模型
专知会员服务
34+阅读 · 2025年1月20日
【2023新书】《AI的工作原理:从魔法到科学》,261页pdf
专知会员服务
129+阅读 · 2023年9月24日
AI已经逆天了,能帮你女朋友“一键脱衣”,单男的福音
《AI 算法手册》目录 | 机器学习知识点系统性梳理!
数说工作室
22+阅读 · 2019年5月28日
完备的 AI 学习路线,最详细的资源整理!
新智元
17+阅读 · 2019年5月4日
完备的 AI 学习路线,最详细的中英文资源整理
机器之心
29+阅读 · 2019年4月28日
【资源推荐】AI可解释性资源汇总
专知
47+阅读 · 2019年4月24日
综述AI未来:神经科学启发的类脑计算
人工智能学家
11+阅读 · 2018年4月24日
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
0+阅读 · 2月18日
Arxiv
0+阅读 · 2月12日
Arxiv
0+阅读 · 1月13日
VIP会员
相关基金
国家自然科学基金
7+阅读 · 2017年12月31日
国家自然科学基金
9+阅读 · 2017年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员