Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces - 专知论文

会员服务 ·

0

泛化 · 圆球 · 示例 · 输出 · 包含 ·

Boule or Baguette? A Study on Task Topology, Length Generalization, and the Benefit of Reasoning Traces

翻译：圆球还是法棍？任务拓扑、长度泛化与推理轨迹优势研究

William L. Tong,Ege Cakar,Cengiz Pehlevan

from arxiv, 38 pages, 11 figures, code available at https://github.com/wtong98/boule-or-baguette

Recent years have witnessed meteoric progress in reasoning models: neural networks that generate intermediate reasoning traces (RTs) before producing a final output. Despite the rapid advancement, our understanding of how RTs support reasoning, and the limits of this paradigm, remain incomplete. To promote greater clarity, we introduce PITA: a novel large-scale dataset of over 23 million statements in propositional logic and their corresponding proofs. As a benchmark for robust reasoning, we focus on length generalization: if a model is trained to determine truth or falsity on statements with proofs up to fixed length, how well does it generalize to statements requiring longer proofs? We propose notions of (1) task depth and (2) task breadth, which measure respectively (1) the number of steps required to solve an example from a task and (2) the number of unique examples across a task. We vary these quantities across subsets of PITA, and find that RT models generalize well on broad and shallow subsets, while deteriorating on narrow and deep subsets relative to non-RT baselines. To determine whether our results are idiosyncratic to PITA or indicative of general phenomena, we compare our results to a simple synthetic task based on syllogisms. Our resulting theory suggests fundamental scalings that limit how well RT models perform on deep tasks, and highlights their generalization strengths on broad tasks. Our findings overall identify fundamental benefits and limitations inherent in using reasoning traces.

翻译：近年来，推理模型取得了迅猛发展：这类神经网络在生成最终输出前会先产生中间推理轨迹。尽管进展迅速，但我们对推理轨迹如何支持推理以及该范式的局限性仍缺乏完整理解。为促进更清晰的认识，我们提出了PITA：一个包含超过2300万命题逻辑语句及其对应证明的大规模数据集。作为稳健推理的基准，我们聚焦于长度泛化问题：若模型被训练用于判断具有固定长度证明的语句真值，其在需要更长证明的语句上的泛化能力如何？我们提出了（1）任务深度与（2）任务广度的概念，分别用于度量（1）解决任务中单个示例所需的步骤数，以及（2）任务中独特示例的数量。通过在PITA子集中调整这些量，我们发现推理轨迹模型在广而浅的子集上泛化良好，而在窄而深的子集上相对于非推理轨迹基线模型表现下降。为验证结果是否仅为PITA特有或反映普遍现象，我们将结果与基于三段论的简单合成任务进行对比。由此构建的理论揭示了限制推理轨迹模型在深度任务表现的基本缩放规律，并突显其在广度任务上的泛化优势。总体而言，我们的研究揭示了使用推理轨迹所固有的根本性优势与局限性。

0

相关内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

常识知识与推理的神经符号学探索，华盛顿大学Yejin Choi最新102页PPT及论文讲解

常识知识与推理的神经符号学探索，华盛顿大学Yejin Choi最新102页PPT及论文讲解

专知会员服务

32+阅读 · 2022年12月31日

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

专知会员服务

31+阅读 · 2022年12月22日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

【哥伦比亚大学】复杂网络深度表示的几何和拓扑推理，Geometric and Topological Inference for Deep Representations of Complex Networks

【哥伦比亚大学】复杂网络深度表示的几何和拓扑推理，Geometric and Topological Inference for Deep Representations of Complex Networks

专知会员服务

23+阅读 · 2022年3月11日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

开放知识图谱

24+阅读 · 2018年4月10日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

图的随机p-中心和中位问题的理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Efficient Reasoning on the Edge

Arxiv

0+阅读 · 3月17日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs

Arxiv

0+阅读 · 2月18日

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Arxiv

0+阅读 · 2月17日

NeuroSymActive: Differentiable Neural-Symbolic Reasoning with Active Exploration for Knowledge Graph Question Answering

Arxiv

0+阅读 · 2月17日

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Characterizing, Evaluating, and Optimizing Complex Reasoning

Arxiv

0+阅读 · 2月9日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月8日

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 2月6日

Probing the Trajectories of Reasoning Traces in Large Language Models

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

专知会员服务

1+阅读 · 今天10:06

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

专知会员服务

1+阅读 · 今天9:11

深入Maven智能系统：Palantir基于Claude打造的军事大脑

深入Maven智能系统：Palantir基于Claude打造的军事大脑

专知会员服务

5+阅读 · 今天8:18

“Maven计划”的发展演变之“Maven智能系统”应用

“Maven计划”的发展演变之“Maven智能系统”应用

专知会员服务

4+阅读 · 今天8:03

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

伊朗的无人机蜂群策略如何挑战美国防御系统：人工智能驱动的无人机战争与现代冲突的转型

专知会员服务

5+阅读 · 今天7:39

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

2+阅读 · 今天6:58

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

3+阅读 · 今天6:54

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

5+阅读 · 今天6:48

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

2+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

5+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

3+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

4+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

4+阅读 · 今天6:09

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

19+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

15+阅读 · 4月25日

相关VIP内容

在回答之前先解释：组合视觉推理综述

在回答之前先解释：组合视觉推理综述

专知会员服务

15+阅读 · 2025年8月27日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

77+阅读 · 2023年12月23日

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

大模型中的思维链如何理解？哈工大等最新《思维链推理研究》综述，详述思维链进展、前沿与未来

专知会员服务

87+阅读 · 2023年9月30日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

ChatGPT和GPT-4的逻辑推理如何？浙大等最新《ChatGPT和GPT-4逻辑推理能力全面评测》论文解答，常规优异新数据差

专知会员服务

65+阅读 · 2023年4月19日

常识知识与推理的神经符号学探索，华盛顿大学Yejin Choi最新102页PPT及论文讲解

常识知识与推理的神经符号学探索，华盛顿大学Yejin Choi最新102页PPT及论文讲解

专知会员服务

32+阅读 · 2022年12月31日

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

神经网络如何推理算法？DeepMind Petar等LoG 2022 《神经算法推理》教程，系统性讲解神经网络与经典算法结合

专知会员服务

31+阅读 · 2022年12月22日

「可解释知识图谱推理」最新方法综述

「可解释知识图谱推理」最新方法综述

专知会员服务

89+阅读 · 2022年12月17日

【哥伦比亚大学】复杂网络深度表示的几何和拓扑推理，Geometric and Topological Inference for Deep Representations of Complex Networks

【哥伦比亚大学】复杂网络深度表示的几何和拓扑推理，Geometric and Topological Inference for Deep Representations of Complex Networks

专知会员服务

23+阅读 · 2022年3月11日

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

【论文】用于推理的概率逻辑神经网络（Probabilistic Logic Neural Networks for Reasoning）

专知会员服务

104+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《低成本自杀式无人机战争的军事战略影响：以乌克兰和伊朗为案例研究》

“Maven计划”的发展演变之“Maven智能系统”应用

何为下一代指挥与控制？美陆军选择第四步兵师进行快速原型NGC2开发

深入Maven智能系统：Palantir基于Claude打造的军事大脑

相关资讯

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

【图灵奖得主Judea Pearl推荐新书】图模型(Graphical Models), 571页pdf，带你学习GM和因果推断

专知

67+阅读 · 2019年9月26日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

GitHub趋势榜第一！图深度学习数百篇顶会论文最全Get！

新智元

45+阅读 · 2019年7月8日

因果推理学习算法资源大列表

因果推理学习算法资源大列表

专知

27+阅读 · 2019年3月3日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

理解人类推理的深度学习

理解人类推理的深度学习

论智

19+阅读 · 2018年11月7日

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

开放知识图谱

24+阅读 · 2018年4月10日

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

【论文推荐】最新6篇视觉问答（VQA）相关论文—目标推理、深度循环模型、可解释性、数据可视化、Triplet学习、基准

专知

15+阅读 · 2018年2月3日

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

【论文推荐】最新5篇自动问答相关论文——多关系自动问答、知识图谱联合实体和关系、生物医学问题、维基百科语料数据、多句式旅游推荐

专知

23+阅读 · 2018年1月17日

相关论文

Efficient Reasoning on the Edge

Arxiv

0+阅读 · 3月17日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Framework of Thoughts: A Foundation Framework for Dynamic and Optimized Reasoning based on Chains, Trees, and Graphs

Arxiv

0+阅读 · 2月18日

Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale

Arxiv

0+阅读 · 2月17日

NeuroSymActive: Differentiable Neural-Symbolic Reasoning with Active Exploration for Knowledge Graph Question Answering

Arxiv

0+阅读 · 2月17日

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 2月9日

Characterizing, Evaluating, and Optimizing Complex Reasoning

Arxiv

0+阅读 · 2月9日

Enhancing Mathematical Problem Solving in LLMs through Execution-Driven Reasoning Augmentation

Arxiv

0+阅读 · 2月8日

InftyThink+: Effective and Efficient Infinite-Horizon Reasoning via Reinforcement Learning

Arxiv

0+阅读 · 2月6日

Probing the Trajectories of Reasoning Traces in Large Language Models

Arxiv

0+阅读 · 1月30日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

面向海量高维数据的可深度结合的贝叶斯网学习与推理新方法研究

国家自然科学基金

6+阅读 · 2015年12月31日

分布无关的概率图模型结构学习方法的研究

国家自然科学基金

4+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

图的随机p-中心和中位问题的理论和算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员