The Condition Number as a Scale-Invariant Proxy for Information Encoding in Neural Units - 专知论文

会员服务 ·

0

单元 · 不变 · 变换 · 微调 · 灾难性遗忘 ·

The Condition Number as a Scale-Invariant Proxy for Information Encoding in Neural Units

翻译：条件数作为神经单元信息编码的尺度不变代理指标

from arxiv, This version includes a new experiment using a larger LLM and introducing KappaTune-LoRA

This paper explores the relationship between the condition number of a neural network's weight tensor and the extent of information encoded by the associated processing unit, viewed through the lens of information theory. It argues that a high condition number, though not sufficient for effective knowledge encoding, may indicate that the unit has learned to selectively amplify and compress information. This intuition is formalized for linear units with Gaussian inputs, linking the condition number and the transformation's log-volume scaling factor to the characteristics of the output entropy and the geometric properties of the learned transformation. The analysis demonstrates that for a fixed weight norm, a concentrated distribution of singular values (high condition number) corresponds to reduced overall information transfer, indicating a specialized and efficient encoding strategy. Furthermore, the linear stage entropy bound provides an upper limit on post-activation information for contractive, element-wise nonlinearities, supporting the condition number as a scale-invariant proxy for encoding capacity in practical neural networks. An empirical case study applies these principles to guide selective fine-tuning of Large Language Models for both a new task and a new input modality. The experiments show that the proposed method, named KappaTune, effectively mitigates catastrophic forgetting. Unlike many existing catastrophic forgetting mitigation methods that rely on access to pre-training statistics, which are often unavailable, this selective fine-tuning approach offers a way to bypass this common requirement.

翻译：本文从信息论视角探讨了神经网络权重张量的条件数与相应处理单元所编码信息程度之间的关系。文章指出，高条件数虽不足以保证有效的知识编码，但可能表明该单元已学会选择性放大与压缩信息。针对高斯输入的线性单元，这一直觉被形式化表达：条件数与变换的对数体积缩放因子共同关联于输出熵的特性及所学变换的几何性质。分析表明，在固定权重范数下，奇异值的集中分布（高条件数）对应着整体信息传递的减少，这指示了一种专业化且高效的编码策略。此外，线性阶段熵界为收缩型逐元素非线性激活后的信息提供了上限，从而支持将条件数作为实际神经网络编码能力的尺度不变代理指标。一项实证案例研究应用这些原理指导大型语言模型针对新任务与新输入模态的选择性微调。实验表明，所提出的方法（命名为KappaTune）能有效缓解灾难性遗忘。与许多依赖预训练统计信息（通常难以获取）的现有灾难性遗忘缓解方法不同，这种选择性微调方法提供了一条绕过此常见要求的途径。

0

相关内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

17+阅读 · 2025年7月3日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

最新《神经数据压缩导论》综述

最新《神经数据压缩导论》综述

专知会员服务

39+阅读 · 2022年7月19日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【NeurIPS2021】基于预测信息识别输入特征的细粒度神经网络解释

专知会员服务

12+阅读 · 2021年10月6日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

专知会员服务

41+阅读 · 2019年12月30日

基于深度学习的单模医学图像配准综述（附VoxelMorph配准实例和代码）

基于深度学习的单模医学图像配准综述（附VoxelMorph配准实例和代码）

极市平台

12+阅读 · 2020年10月2日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【干货】深度学习中的线性代数

【干货】深度学习中的线性代数

专知

21+阅读 · 2018年3月30日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

结合信道编码的低开销网络编码机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

Estimating Dimensionality of Neural Representations from Finite Samples

Arxiv

0+阅读 · 3月2日

Neural Parameter Estimation with Incomplete Data

Arxiv

0+阅读 · 2月24日

Scaling Law of Neural Koopman Operators

Arxiv

0+阅读 · 2月23日

Path-conditioned training: a principled way to rescale ReLU neural networks

Arxiv

0+阅读 · 2月23日

Scale redundancy and soft gauge fixing in positively homogeneous neural networks

Arxiv

0+阅读 · 2月16日

An Algebraic Invariant for Free Convolutional Codes over Finite Local Rings

Arxiv

0+阅读 · 2月13日

Optimal Formats for Weight Quantisation

Arxiv

0+阅读 · 2月13日

A Semantic Encoding of Object Centric Event Data

Arxiv

0+阅读 · 2月10日

Term Coding and Dispersion: A Perfect-vs-Rate Complexity Dichotomy for Information Flow

Arxiv

0+阅读 · 2月8日

Ensuring Semantics in Weights of Implicit Neural Representations through the Implicit Function Theorem

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

灾难性遗忘

最新内容

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

1+阅读 · 今天14:49

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

1+阅读 · 今天14:47

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

1+阅读 · 今天14:45

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

3+阅读 · 今天14:22

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

4+阅读 · 今天13:50

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 今天13:33

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

3+阅读 · 今天13:30

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

3+阅读 · 今天13:28

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

3+阅读 · 今天13:13

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

2+阅读 · 今天13:10

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

相关VIP内容

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

美陆军研究报告《基于熵引导的深度神经网络加速收敛与性能提升方法》最新26页

专知会员服务

17+阅读 · 2025年7月3日

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

【牛津大学博士论文】学习神经网络中的不变表示，130页pdf

专知会员服务

52+阅读 · 2022年10月8日

最新《神经数据压缩导论》综述

最新《神经数据压缩导论》综述

专知会员服务

39+阅读 · 2022年7月19日

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

Nature. Mach. Intell. |基于梯度的学习通过平衡压缩和扩展来驱动循环神经网络中的鲁棒表示

专知会员服务

10+阅读 · 2022年6月23日

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

【ICML2022】DepthShrinker:一种新的压缩范式，用于提高紧凑神经网络的实际硬件效率

专知会员服务

11+阅读 · 2022年6月5日

【NeurIPS2021】基于预测信息识别输入特征的细粒度神经网络解释

专知会员服务

12+阅读 · 2021年10月6日

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

【NeurIPS2020】通过最大编码率降低原理学习多样和有判别性的表示

专知会员服务

15+阅读 · 2020年9月30日

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

最大均方差正则化贝叶斯神经网络，Bayesian Neural Networks With Maximum Mean Discrepancy Regularization

专知会员服务

54+阅读 · 2020年3月5日

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

【MIT】图神经网络的泛化与表示极限，《Generalization and Representational Limits of Graph Neural Networks》

专知会员服务

46+阅读 · 2020年2月23日

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

【图机器学习论文】图神经网络的逻辑表达性（Logical Expressiveness of Graph Neural Networks）

专知会员服务

41+阅读 · 2019年12月30日

热门VIP内容

开通专知VIP会员享更多权益服务

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

相关资讯

基于深度学习的单模医学图像配准综述（附VoxelMorph配准实例和代码）

基于深度学习的单模医学图像配准综述（附VoxelMorph配准实例和代码）

极市平台

12+阅读 · 2020年10月2日

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

最新《图卷积神经网络》中文综述论文，26页pdf，计算机学报-中科院计算所

专知

36+阅读 · 2020年5月19日

赛尔笔记 | 条件变分自编码器（CVAE）

赛尔笔记 | 条件变分自编码器（CVAE）

AINLP

28+阅读 · 2019年11月8日

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

图神经网络开发必备组件，NetworkX、稀疏矩阵、稀疏Tensor等

专知

48+阅读 · 2019年5月10日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

每日论文 | CV中深度学习涉及到的几何和不确定性；用深度学习分析气象；可自动调整模拟器参数的模型

论智

11+阅读 · 2018年10月9日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

【干货】深度学习中的线性代数

【干货】深度学习中的线性代数

专知

21+阅读 · 2018年3月30日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

相关论文

Estimating Dimensionality of Neural Representations from Finite Samples

Arxiv

0+阅读 · 3月2日

Neural Parameter Estimation with Incomplete Data

Arxiv

0+阅读 · 2月24日

Scaling Law of Neural Koopman Operators

Arxiv

0+阅读 · 2月23日

Path-conditioned training: a principled way to rescale ReLU neural networks

Arxiv

0+阅读 · 2月23日

Scale redundancy and soft gauge fixing in positively homogeneous neural networks

Arxiv

0+阅读 · 2月16日

An Algebraic Invariant for Free Convolutional Codes over Finite Local Rings

Arxiv

0+阅读 · 2月13日

Optimal Formats for Weight Quantisation

Arxiv

0+阅读 · 2月13日

A Semantic Encoding of Object Centric Event Data

Arxiv

0+阅读 · 2月10日

Term Coding and Dispersion: A Perfect-vs-Rate Complexity Dichotomy for Information Flow

Arxiv

0+阅读 · 2月8日

Ensuring Semantics in Weights of Implicit Neural Representations through the Implicit Function Theorem

Arxiv

0+阅读 · 1月30日

相关基金

忆阻递归神经网络的多重稳定性理论研究

国家自然科学基金

0+阅读 · 2015年12月31日

张量分析及其在高维信息处理中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

基于不完全测量信息的随机忆阻神经网络的参数与状态估计问题研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义双随机相位编码系统中以QR码为载体的信息加密及无损恢复

国家自然科学基金

0+阅读 · 2015年12月31日

编码和信息安全中的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

结合信道编码的低开销网络编码机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

代数整数的性质研究和无理测度的计算

国家自然科学基金

0+阅读 · 2014年12月31日

信息论学习中的正则化及相关高维数据分析方法的数学理论

国家自然科学基金

12+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

不确定环境下强化学习和决策的神经机制

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员