Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks - 专知论文

会员服务 ·

0

表示 · 不变 · 度量 · 神经网络 · 一致 ·

Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks

翻译：能力涌现的解剖：神经网络中的尺度不变表示坍缩与自上而下重组

from arxiv, 19 pages, 6 figures, 12 appendix pages

Capability emergence during neural network training remains mechanistically opaque. We track five geometric measures across five model scales (405K-85M parameters), 120+ emergence events in eight algorithmic tasks, and three Pythia language models (160M-2.8B). We find: (1) training begins with a universal representation collapse to task-specific floors that are scale-invariant across a 210X parameter range (e.g., modular arithmetic collapses to RANKME ~ 2.0 regardless of model size); (2) collapse propagates top-down through layers (32/32 task X model consistency), contradicting bottom-up feature-building intuition; (3) a geometric hierarchy in which representation geometry leads emergence (75-100% precursor rate for hard tasks), while the local learning coefficient is synchronous (0/24 precursor) and Hessian measures lag. We also delineate prediction limits: geometric measures encode coarse task difficulty but not fine-grained timing (within-class concordance 27%; when task ordering reverses across scales, prediction fails at 26%). On Pythia, global geometric patterns replicate but per-task precursor signals do not -- the precursor relationship requires task-training alignment that naturalistic pre-training does not provide. Our contribution is the geometric anatomy of emergence and its boundary conditions, not a prediction tool.

翻译：神经网络训练过程中的能力涌现机制仍不明确。本研究追踪了五个几何度量在五个模型规模（405K-8500万参数）、八个算法任务中的120余次涌现事件以及三个Pythia语言模型（1.6亿-28亿参数）中的表现。研究发现：（1）训练起始阶段普遍存在表示坍缩现象，坍缩至任务特定的稳定水平，且该水平在210倍参数范围内呈现尺度不变性（例如模运算任务中RANKME值始终坍缩至约2.0，与模型规模无关）；（2）坍缩过程以自上而下的方式在神经网络层间传播（在32/32的任务×模型组合中表现一致），这与自下而上的特征构建直觉相悖；（3）存在几何层级关系：表示几何结构引领能力涌现（在困难任务中的先导率达75-100%），而局部学习系数呈同步变化（0/24先导率），Hessian度量则存在滞后。同时界定了预测边界：几何度量可编码任务的宏观难度但无法预测精细时间节点（类内一致性仅27%；当任务排序在不同规模间反转时，预测失败率达26%）。在Pythia模型中，全局几何模式可复现但具体任务的先导信号消失——先导关系需要任务与训练的精确对齐，而自然主义的预训练无法提供这种对齐条件。本研究的贡献在于揭示了能力涌现的几何解剖结构及其边界条件，而非提供预测工具。

0

相关内容

【ETZH博士论文】低维与高维空间中潜在表示的分析、建模与变换，169页pdf

【ETZH博士论文】低维与高维空间中潜在表示的分析、建模与变换，169页pdf

专知会员服务

19+阅读 · 2025年7月30日

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

16+阅读 · 2025年7月3日

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

大模型的涌现能力介绍

大模型的涌现能力介绍

专知会员服务

174+阅读 · 2023年5月16日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

深度神经网络模型压缩综述

专知会员服务

117+阅读 · 2020年8月22日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

专知

29+阅读 · 2019年1月23日

每日三篇 | 神经网络能力；词嵌入维度选取；SACNN

每日三篇 | 神经网络能力；词嵌入维度选取；SACNN

论智

12+阅读 · 2018年12月10日

专栏 | 浅析图卷积神经网络

专栏 | 浅析图卷积神经网络

机器之心

28+阅读 · 2018年7月4日

【一文看懂】深度神经网络加速和压缩新进展年度报告

【一文看懂】深度神经网络加速和压缩新进展年度报告

新智元

10+阅读 · 2018年5月18日

从LeNet到SENet——卷积神经网络回顾

从LeNet到SENet——卷积神经网络回顾

AI科技评论

13+阅读 · 2018年2月15日

【回顾】深度学习系列之二：卷积神经网络

【回顾】深度学习系列之二：卷积神经网络

AI研习社

20+阅读 · 2017年12月1日

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

层次粒化的不确定多态网络重叠社区发现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Dataset Distillation Efficiently Encodes Low-Dimensional Representations from Gradient-Based Learning of Non-Linear Tasks

Arxiv

0+阅读 · 3月16日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Arxiv

0+阅读 · 3月4日

Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks

Arxiv

0+阅读 · 2月19日

Random Scaling of Emergent Capabilities

Arxiv

0+阅读 · 2月18日

Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks

Arxiv

0+阅读 · 2月11日

It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task

Arxiv

0+阅读 · 2月4日

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

Arxiv

0+阅读 · 2月4日

Learning and extrapolating scale-invariant processes

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

0+阅读 · 8分钟前

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

0+阅读 · 17分钟前

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

2+阅读 · 57分钟前

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

4+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

3+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

7+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

5+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

5+阅读 · 今天2:13

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

10+阅读 · 4月21日

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

13+阅读 · 4月21日

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

7+阅读 · 4月21日

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

9+阅读 · 4月21日

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

相关VIP内容

【ETZH博士论文】低维与高维空间中潜在表示的分析、建模与变换，169页pdf

【ETZH博士论文】低维与高维空间中潜在表示的分析、建模与变换，169页pdf

专知会员服务

19+阅读 · 2025年7月30日

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

16+阅读 · 2025年7月3日

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

【ETH博士论文】维数灾难与神经网络的基于梯度训练：缩小理论与应用之间的鸿沟，123页pdf

专知会员服务

35+阅读 · 2023年5月31日

大模型的涌现能力介绍

大模型的涌现能力介绍

专知会员服务

174+阅读 · 2023年5月16日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

TAMU发布《图神经网络可解释》综述论文，14页pdf阐述实例级与模型级解释

专知会员服务

87+阅读 · 2021年1月16日

深度神经网络模型压缩综述

专知会员服务

117+阅读 · 2020年8月22日

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

【论文推荐】 Bidirectional Self-Normalizing Neural Networks：双向自归一化神经网络

专知会员服务

17+阅读 · 2020年6月22日

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

神经网络的拓扑结构，TOPOLOGY OF DEEP NEURAL NETWORKS

专知会员服务

35+阅读 · 2020年4月15日

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

【机器学习论文推荐】EfficientNet:卷积神经网络的再思考模型缩放（EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks）

专知会员服务

17+阅读 · 2019年12月24日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型平台在国防情报应用中的对比

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

伊朗战争中的电子战

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

相关资讯

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

【WWW2020】结构深度聚类网络， Structural Deep Clustering Network，北京邮电大学

专知

31+阅读 · 2020年2月19日

深度神经网络可解释性方法汇总，附Tensorflow代码实现

深度神经网络可解释性方法汇总，附Tensorflow代码实现

新智元

34+阅读 · 2019年11月7日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

Google DeepMind最新报告—深度神经网络压缩进展（附PPT下载）

专知

28+阅读 · 2019年4月16日

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

【论文综述】深度卷积神经网络架构最新进展综述（附60页全文下载）

专知

29+阅读 · 2019年1月23日

每日三篇 | 神经网络能力；词嵌入维度选取；SACNN

每日三篇 | 神经网络能力；词嵌入维度选取；SACNN

论智

12+阅读 · 2018年12月10日

专栏 | 浅析图卷积神经网络

专栏 | 浅析图卷积神经网络

机器之心

28+阅读 · 2018年7月4日

【一文看懂】深度神经网络加速和压缩新进展年度报告

【一文看懂】深度神经网络加速和压缩新进展年度报告

新智元

10+阅读 · 2018年5月18日

从LeNet到SENet——卷积神经网络回顾

从LeNet到SENet——卷积神经网络回顾

AI科技评论

13+阅读 · 2018年2月15日

【回顾】深度学习系列之二：卷积神经网络

【回顾】深度学习系列之二：卷积神经网络

AI研习社

20+阅读 · 2017年12月1日

相关论文

Dataset Distillation Efficiently Encodes Low-Dimensional Representations from Gradient-Based Learning of Non-Linear Tasks

Arxiv

0+阅读 · 3月16日

Variational Deep Learning via Implicit Regularization

Arxiv

0+阅读 · 3月13日

Beyond Accuracy: Reliability and Uncertainty Estimation in Convolutional Neural Networks

Arxiv

0+阅读 · 3月11日

Exploiting Subgradient Sparsity in Max-Plus Neural Networks

Arxiv

0+阅读 · 3月4日

Anatomy of Capability Emergence: Scale-Invariant Representation Collapse and Top-Down Reorganization in Neural Networks

Arxiv

0+阅读 · 2月19日

Random Scaling of Emergent Capabilities

Arxiv

0+阅读 · 2月18日

Provable Emergence of Deep Neural Collapse and Low-Rank Bias in $L^2$-Regularized Nonlinear Networks

Arxiv

0+阅读 · 2月11日

It's not a Lottery, it's a Race: Understanding How Gradient Descent Adapts the Network's Capacity to the Task

Arxiv

0+阅读 · 2月4日

Flatness is Necessary, Neural Collapse is Not: Rethinking Generalization via Grokking

Arxiv

0+阅读 · 2月4日

Learning and extrapolating scale-invariant processes

Arxiv

0+阅读 · 1月30日

相关基金

循环神经网络多模态深度模型联想记忆功能研究

国家自然科学基金

6+阅读 · 2017年12月31日

多层动态网络的建模、群体动力学分析与控制

国家自然科学基金

3+阅读 · 2015年12月31日

面向动态演化的网构软件失效机理与测评方法

国家自然科学基金

1+阅读 · 2015年12月31日

层次粒化的不确定多态网络重叠社区发现方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于事件驱动的不完整信息耦合复杂网络群集动力学研究

国家自然科学基金

1+阅读 · 2015年12月31日

多尺度模块网络下的储备池神经计算模型及算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于相依数据的梯度学习理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

反馈神经网络统一模型临界动力学研究及其在类脑计算机研制中的应用

国家自然科学基金

1+阅读 · 2014年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员