AI-rithmetic - 专知论文

会员服务 ·

0

AI · 系统 · 位错 · 数学 · AI系统 ·

翻译：AI-rithmetic

Alex Bie,Travis Dick,Alex Kulesza,Prabhakar Raghavan,Vinod Raman,Sergei Vassilvitskii

Modern AI systems have been successfully deployed to win medals at international math competitions, assist with research workflows, and prove novel technical lemmas. However, despite their progress at advanced levels of mathematics, they remain stubbornly bad at basic arithmetic, consistently failing on the simple task of adding two numbers. We present a systematic investigation of this phenomenon. We demonstrate empirically that all frontier models suffer significantly degraded accuracy for integer addition as the number of digits increases. Furthermore, we show that most errors made by these models are highly interpretable and can be attributed to either operand misalignment or a failure to correctly carry; these two error classes explain 87.9%, 62.9%, and 92.4% of Claude Opus 4.1, GPT-5, and Gemini 2.5 Pro errors, respectively. Finally, we show that misalignment errors are frequently related to tokenization, and that carrying errors appear largely as independent random failures.

翻译：现代AI系统已成功部署于在国际数学竞赛中赢得奖牌、协助研究工作流程以及证明新颖技术引理等任务。然而，尽管它们在高等数学层面取得了进展，这些系统在基础算术运算上却依然表现不佳，在简单的两数相加任务中持续出错。本文对这一现象进行了系统性研究。我们通过实证证明，所有前沿模型在整数加法运算中的准确率均随数字位数的增加而显著下降。进一步地，我们发现这些模型产生的大多数错误具有高度可解释性，可归因于操作数错位或进位计算失败：这两类错误分别解释了Claude Opus 4.1、GPT-5和Gemini 2.5 Pro模型中87.9%、62.9%和92.4%的错误案例。最后，我们证明错位错误常与分词机制相关，而进位错误则主要表现为独立的随机性失效。

0

相关内容

人工智能杂志AI(Artificial Intelligence)是目前公认的发表该领域最新研究成果的主要国际论坛。该期刊欢迎有关AI广泛方面的论文，这些论文构成了整个领域的进步，也欢迎介绍人工智能应用的论文，但重点应该放在新的和新颖的人工智能方法如何提高应用领域的性能，而不是介绍传统人工智能方法的另一个应用。关于应用的论文应该描述一个原则性的解决方案，强调其新颖性，并对正在开发的人工智能技术进行深入的评估。官网地址：http://dblp.uni-trier.de/db/journals/ai/

Nature杂志《AI科学家诞生：从构思到论文发表，全程无需人类插手》

Nature杂志《AI科学家诞生：从构思到论文发表，全程无需人类插手》

专知会员服务

22+阅读 · 3月28日

AI大模型证明了NP=P

AI大模型证明了NP=P

专知会员服务

8+阅读 · 2025年8月30日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

31+阅读 · 2025年5月10日

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

专知会员服务

28+阅读 · 2024年8月25日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

Bengio、LeCun 等人联名发布 NeuroAI 白皮书：智能的本质是感觉运动能力，AI 迎来具身图灵测试大挑战

Bengio、LeCun 等人联名发布 NeuroAI 白皮书：智能的本质是感觉运动能力，AI 迎来具身图灵测试大挑战

专知会员服务

42+阅读 · 2022年10月31日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

专知

28+阅读 · 2019年12月13日

AI已经逆天了，能帮你女朋友“一键脱衣”，单男的福音

AI已经逆天了，能帮你女朋友“一键脱衣”，单男的福音

互联网架构师

87+阅读 · 2019年6月30日

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

数说工作室

22+阅读 · 2019年5月28日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

完备的 AI 学习路线，最详细的中英文资源整理

完备的 AI 学习路线，最详细的中英文资源整理

机器之心

29+阅读 · 2019年4月28日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

综述AI未来：神经科学启发的类脑计算

综述AI未来：神经科学启发的类脑计算

人工智能学家

11+阅读 · 2018年4月24日

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

基于计算智能的心系基础证量化诊断方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

通过分析LOH探究智力障碍的致病基因变异

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Mathematicians in the age of AI

Arxiv

1+阅读 · 3月7日

Delegation and Verification Under AI

Arxiv

0+阅读 · 3月3日

The AI Research Assistant: Promise, Peril, and a Proof of Concept

Arxiv

0+阅读 · 2月26日

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Arxiv

0+阅读 · 2月23日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 2月18日

Stop Saying "AI"

Arxiv

0+阅读 · 2月18日

Intelligent AI Delegation

Arxiv

0+阅读 · 2月12日

AI Twin: Enhancing ESL Speaking Practice through AI Self-Clones of a Better Me

Arxiv

0+阅读 · 2月3日

Towards AI as Colleagues: Multi-Agent System Improves Structured Ideation Processes

Arxiv

0+阅读 · 1月31日

AI for Scientific Discovery is a Social Problem

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

2+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

2+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

4+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

10+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

8+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 4月24日

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 4月24日

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

5+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

5+阅读 · 4月23日

相关VIP内容

Nature杂志《AI科学家诞生：从构思到论文发表，全程无需人类插手》

Nature杂志《AI科学家诞生：从构思到论文发表，全程无需人类插手》

专知会员服务

22+阅读 · 3月28日

AI大模型证明了NP=P

AI大模型证明了NP=P

专知会员服务

8+阅读 · 2025年8月30日

《在单智能体与多智能体AI系统中融入人类合理性》100页

《在单智能体与多智能体AI系统中融入人类合理性》100页

专知会员服务

31+阅读 · 2025年5月10日

可解释人工智能（XAI）：从内在可解释性到大语言模型

可解释人工智能（XAI）：从内在可解释性到大语言模型

专知会员服务

34+阅读 · 2025年1月20日

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

AI手机：AI发展重心逐步向端侧转移，苹果有望开启AI手机换机浪潮

专知会员服务

28+阅读 · 2024年8月25日

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

什么是Data-Centric AI？Rice大学最新《以数据为中心的人工智能》研究综述，38页pdf全面阐述DCAI技术体系

专知会员服务

76+阅读 · 2023年3月21日

Bengio、LeCun 等人联名发布 NeuroAI 白皮书：智能的本质是感觉运动能力，AI 迎来具身图灵测试大挑战

Bengio、LeCun 等人联名发布 NeuroAI 白皮书：智能的本质是感觉运动能力，AI 迎来具身图灵测试大挑战

专知会员服务

42+阅读 · 2022年10月31日

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

可信AI是什么？密歇根最新WWW2022《可信人工智能：一种计算视角》教程，附123页ppt

专知会员服务

89+阅读 · 2022年4月29日

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

京东等学者发布《可信赖人工智能》综述论文，62页pdf449篇文献全面阐述可信赖AI的理论与方法

专知会员服务

107+阅读 · 2021年10月6日

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

【DeepMind】人工智能、价值与对齐，Artificial Intelligence, Values, and Alignment

专知会员服务

38+阅读 · 2020年1月13日

热门VIP内容

开通专知VIP会员享更多权益服务

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

战场之外的较量：美伊冲突中的认知战与心理博弈

【NTU博士论文】3D人体动作生成

以色列军事技术对美国军力发展的持续性赋能

相关资讯

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

AI的未来不是大模型，也不是端到端：Meta向我们证明了这一点

机器之心

15+阅读 · 2022年11月26日

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

【美海军·系统顶点项目报告】《用于防空和导弹防御的自动作战管理辅助工具（AI）的安全风险评估》162页PDF

专知

38+阅读 · 2022年10月19日

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

谷歌可解释人工智能白皮书，27页pdf，Google AI Explainability Whitepaper

专知

28+阅读 · 2019年12月13日

AI已经逆天了，能帮你女朋友“一键脱衣”，单男的福音

AI已经逆天了，能帮你女朋友“一键脱衣”，单男的福音

互联网架构师

87+阅读 · 2019年6月30日

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

《AI 算法手册》目录 | 机器学习知识点系统性梳理！

数说工作室

22+阅读 · 2019年5月28日

完备的 AI 学习路线，最详细的资源整理！

完备的 AI 学习路线，最详细的资源整理！

新智元

18+阅读 · 2019年5月4日

完备的 AI 学习路线，最详细的中英文资源整理

完备的 AI 学习路线，最详细的中英文资源整理

机器之心

29+阅读 · 2019年4月28日

【资源推荐】AI可解释性资源汇总

【资源推荐】AI可解释性资源汇总

专知

47+阅读 · 2019年4月24日

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

美国DARPA204页可解释人工智能文献综述论文《Explanation in Human-AI Systems》

专知

11+阅读 · 2019年2月8日

综述AI未来：神经科学启发的类脑计算

综述AI未来：神经科学启发的类脑计算

人工智能学家

11+阅读 · 2018年4月24日

相关论文

Mathematicians in the age of AI

Arxiv

1+阅读 · 3月7日

Delegation and Verification Under AI

Arxiv

0+阅读 · 3月3日

The AI Research Assistant: Promise, Peril, and a Proof of Concept

Arxiv

0+阅读 · 2月26日

Cooperation After the Algorithm: Designing Human-AI Coexistence Beyond the Illusion of Collaboration

Arxiv

0+阅读 · 2月23日

Towards a Science of AI Agent Reliability

Arxiv

0+阅读 · 2月18日

Stop Saying "AI"

Arxiv

0+阅读 · 2月18日

Intelligent AI Delegation

Arxiv

0+阅读 · 2月12日

AI Twin: Enhancing ESL Speaking Practice through AI Self-Clones of a Better Me

Arxiv

0+阅读 · 2月3日

Towards AI as Colleagues: Multi-Agent System Improves Structured Ideation Processes

Arxiv

0+阅读 · 1月31日

AI for Scientific Discovery is a Social Problem

Arxiv

0+阅读 · 1月30日

相关基金

基于深度学习技术的视神经系统研究

国家自然科学基金

7+阅读 · 2017年12月31日

天元数学交流项目图像处理中的数学理论及方法研讨会

国家自然科学基金

9+阅读 · 2017年12月31日

输入约束下的多智能体系统完全分布式协调控制研究

国家自然科学基金

5+阅读 · 2015年12月31日

数据分析算法的融合与人才培养

国家自然科学基金

7+阅读 · 2015年12月31日

基于计算智能的心系基础证量化诊断方法学研究

国家自然科学基金

0+阅读 · 2015年12月31日

通过分析LOH探究智力障碍的致病基因变异

国家自然科学基金

0+阅读 · 2015年12月31日

带有通信量化和延时的多智能体系统一致性研究

国家自然科学基金

0+阅读 · 2014年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

CPU和GPU混合体系结构上生物网络比对并行算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员