From Growing to Looping: A Unified View of Iterative Computation in LLMs - 专知论文

会员服务 ·

0

迭代计算 · 语言模型 · 深度特征 · 重复模式 · 性能提升 ·

From Growing to Looping: A Unified View of Iterative Computation in LLMs

翻译：从增长到循环：大语言模型中迭代计算的统一视角

Ferdinand Kapl,Emmanouil Angelis,Kaitlin Maile,Johannes von Oswald,Stefan Bauer

Looping, reusing a block of layers across depth, and depth growing, training shallow-to-deep models by duplicating middle layers, have both been linked to stronger reasoning, but their relationship remains unclear. We provide a mechanistic unification: looped and depth-grown models exhibit convergent depth-wise signatures, including increased reliance on late layers and recurring patterns aligned with the looped or grown block. These shared signatures support the view that their gains stem from a common form of iterative computation. Building on this connection, we show that the two techniques are adaptable and composable: applying inference-time looping to the middle blocks of a depth-grown model improves accuracy on some reasoning primitives by up to $2\times$, despite the model never being trained to loop. Both approaches also adapt better than the baseline when given more in-context examples or additional supervised fine-tuning data. Additionally, depth-grown models achieve the largest reasoning gains when using higher-quality, math-heavy cooldown mixtures, which can be further boosted by adapting a middle block to loop. Overall, our results position depth growth and looping as complementary, practical methods for inducing and scaling iterative computation to improve reasoning.

翻译：循环（在深度上重复使用层块）与深度增长（通过复制中间层训练浅层到深层模型）均被证实能增强推理能力，但二者关系尚不明确。我们提出了一种机制上的统一：循环模型与深度增长模型展现出收敛的深度特征，包括对深层依赖的增强，以及与循环或增长块对齐的重复模式。这些共同特征支持了以下观点：两者的性能提升源于一种共同的迭代计算形式。基于这一关联，我们证明这两种技术具有适应性与可组合性：对深度增长模型的中间块应用推理时循环，可将某些推理原语的准确率提升高达$2\times$，尽管该模型从未接受过循环训练。在提供更多上下文示例或额外监督微调数据时，两种方法的适应能力也优于基线。此外，深度增长模型在使用更高质量、数学密集型的冷却混合数据时获得最大的推理提升，而通过调整中间块进行循环可进一步放大该效果。总体而言，我们的研究将深度增长与循环定位为互补且实用的方法，可用于引导和扩展迭代计算以提升推理能力。

0

相关内容

迭代计算

【牛津大学博士论文】通过增加推理计算量来改进大型语言模型的系统与方法

【牛津大学博士论文】通过增加推理计算量来改进大型语言模型的系统与方法

专知会员服务

16+阅读 · 2025年11月23日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

38+阅读 · 2025年9月23日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

迈向推理时代：大型语言模型的长链推理研究综述

迈向推理时代：大型语言模型的长链推理研究综述

专知会员服务

46+阅读 · 2025年3月13日

LlamaV-o1: 重新思考大语言模型中的逐步视觉推理

LlamaV-o1: 重新思考大语言模型中的逐步视觉推理

专知会员服务

17+阅读 · 2025年1月14日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

博客 | Tensorflow系列专题（九）：一文综述RNN循环神经网络

博客 | Tensorflow系列专题（九）：一文综述RNN循环神经网络

AI研习社

13+阅读 · 2018年12月3日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

从最大似然到EM算法：一致的理解方式

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

LSTM、GRU与神经图灵机：详解深度学习最热门的循环神经网络

LSTM、GRU与神经图灵机：详解深度学习最热门的循环神经网络

机器之心

11+阅读 · 2017年7月8日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Arxiv

0+阅读 · 2月17日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

Predicting LLM Output Length via Entropy-Guided Representations

Arxiv

0+阅读 · 2月12日

Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns

Arxiv

0+阅读 · 2月11日

On the Optimal Reasoning Length for RL-Trained Language Models

Arxiv

0+阅读 · 2月11日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation

Arxiv

0+阅读 · 1月31日

VIP会员

文章信息

相关主题

最新内容

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

1+阅读 · 今天14:48

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

1+阅读 · 今天14:38

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

7+阅读 · 今天8:46

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

5+阅读 · 今天7:41

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

3+阅读 · 今天7:22

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 今天6:04

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

9+阅读 · 今天5:37

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

7+阅读 · 今天5:35

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 今天5:24

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 今天5:18

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 今天3:25

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 今天2:55

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

大语言模型智能体长期记忆安全性综述：迈向记忆主权

大语言模型智能体长期记忆安全性综述：迈向记忆主权

专知会员服务

5+阅读 · 4月23日

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

美军被摧毁的空战装备：伊朗战争如何重创美国空中力量

专知会员服务

5+阅读 · 4月23日

相关VIP内容

【牛津大学博士论文】通过增加推理计算量来改进大型语言模型的系统与方法

【牛津大学博士论文】通过增加推理计算量来改进大型语言模型的系统与方法

专知会员服务

16+阅读 · 2025年11月23日

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

强化学习遇见大语言模型：贯穿 LLM 生命周期的进展与应用综述

专知会员服务

38+阅读 · 2025年9月23日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

《高效推理的大模型研究综述：语言、多模态与前沿探索》

《高效推理的大模型研究综述：语言、多模态与前沿探索》

专知会员服务

46+阅读 · 2025年3月30日

迈向推理时代：大型语言模型的长链推理研究综述

迈向推理时代：大型语言模型的长链推理研究综述

专知会员服务

46+阅读 · 2025年3月13日

LlamaV-o1: 重新思考大语言模型中的逐步视觉推理

LlamaV-o1: 重新思考大语言模型中的逐步视觉推理

专知会员服务

17+阅读 · 2025年1月14日

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

Llama-3-SynE：实现有效且高效的大语言模型持续预训练

专知会员服务

36+阅读 · 2024年7月30日

大语言模型算法演进综述

大语言模型算法演进综述

专知会员服务

81+阅读 · 2024年5月30日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

大模型如何从思维链(CoT)，到思维树(ToT)，再到思维图(GoT)：用LLMs解决复杂问题！

专知会员服务

78+阅读 · 2023年9月3日

热门VIP内容

开通专知VIP会员享更多权益服务

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

战场之外的较量：美伊冲突中的认知战与心理博弈

【NTU博士论文】3D人体动作生成

以色列军事技术对美国军力发展的持续性赋能

相关资讯

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

【牛津大学|DeepMind】论深度学习中的统计思维，附49页ppt

专知

14+阅读 · 2019年11月25日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

贝叶斯卷积神经网络：架起深度学习与统计学的桥梁-附PDF下载

专知

41+阅读 · 2019年1月22日

从信息瓶颈理论一瞥机器学习的“大一统理论”

从信息瓶颈理论一瞥机器学习的“大一统理论”

PaperWeekly

14+阅读 · 2019年1月4日

博客 | Tensorflow系列专题（九）：一文综述RNN循环神经网络

博客 | Tensorflow系列专题（九）：一文综述RNN循环神经网络

AI研习社

13+阅读 · 2018年12月3日

从Seq2seq到Attention模型到Self Attention（一）

从Seq2seq到Attention模型到Self Attention（一）

量化投资与机器学习

76+阅读 · 2018年10月8日

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

<好书推荐> -《Pro Deep Learning with TensorFlow》分享

深度学习与NLP

12+阅读 · 2018年9月13日

谷歌推出新型数据增强算法：AutoAugment

谷歌推出新型数据增强算法：AutoAugment

论智

20+阅读 · 2018年6月6日

从最大似然到EM算法：一致的理解方式

从最大似然到EM算法：一致的理解方式

PaperWeekly

19+阅读 · 2018年3月19日

LSTM、GRU与神经图灵机：详解深度学习最热门的循环神经网络

LSTM、GRU与神经图灵机：详解深度学习最热门的循环神经网络

机器之心

11+阅读 · 2017年7月8日

相关论文

Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning

Arxiv

0+阅读 · 3月16日

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs

Arxiv

0+阅读 · 2月19日

On the Out-of-Distribution Generalization of Reasoning in Multimodal LLMs for Simple Visual Planning Tasks

Arxiv

0+阅读 · 2月17日

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Arxiv

0+阅读 · 2月16日

Predicting LLM Output Length via Entropy-Guided Representations

Arxiv

0+阅读 · 2月12日

Expanding Reasoning Potential in Foundation Model by Learning Diverse Chains of Thought Patterns

Arxiv

0+阅读 · 2月11日

On the Optimal Reasoning Length for RL-Trained Language Models

Arxiv

0+阅读 · 2月11日

Think-Augmented Function Calling: Improving LLM Parameter Accuracy Through Embedded Reasoning

Arxiv

0+阅读 · 2月6日

LoopViT: Scaling Visual ARC with Looped Transformers

Arxiv

0+阅读 · 2月2日

Towards Sample-Efficient and Stable Reinforcement Learning for LLM-based Recommendation

Arxiv

0+阅读 · 1月31日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

43+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

不同加工层次和不同时空尺度下无意识加工之间的相互作用

国家自然科学基金

0+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

相依回归模型与扩散过程的统计推断及其应用

国家自然科学基金

1+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向大数据的粒计算理论与方法

国家自然科学基金

4+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员