S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations - 专知论文

会员服务 ·

0

衰减 · 精度 · 奇异值 · 模型量化 · 极大 ·

S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations

翻译：S2D：面向神经激活量化友好的选择性谱衰减条件化方法

Arnav Chavan,Nahush Lele,Udbhav Bamba,Sankalp Dayal,Aditi Raghunathan,Deepak Gupta

Activation outliers in large-scale transformer models pose a fundamental challenge to model quantization, creating excessively large ranges that cause severe accuracy drops during quantization. We empirically observe that outlier severity intensifies with pre-training scale (e.g., progressing from CLIP to the more extensively trained SigLIP and SigLIP2). Through theoretical analysis as well as empirical correlation studies, we establish the direct link between these activation outliers and dominant singular values of the weights. Building on this insight, we propose Selective Spectral Decay ($S^2D$), a geometrically-principled conditioning method that surgically regularizes only the weight components corresponding to the largest singular values during fine-tuning. Through extensive experiments, we demonstrate that $S^2D$ significantly reduces activation outliers and produces well-conditioned representations that are inherently quantization-friendly. Models trained with $S^2D$ achieve up to 7% improved PTQ accuracy on ImageNet under W4A4 quantization and 4% gains when combined with QAT. These improvements also generalize across downstream tasks and vision-language models, enabling the scaling of increasingly large and rigorously trained models without sacrificing deployment efficiency.

翻译：大规模Transformer模型中的激活异常值对模型量化构成了根本性挑战，其产生的极大数值范围会在量化过程中导致严重的精度下降。我们通过实证观察发现，异常值的严重程度随着预训练规模的扩大而加剧（例如从CLIP到训练更充分的SigLIP和SigLIP2）。通过理论分析和实证相关性研究，我们确立了这些激活异常值与权重矩阵主导奇异值之间的直接关联。基于这一发现，我们提出了选择性谱衰减（$S^2D$）——一种基于几何原理的条件化方法，该方法在微调过程中仅针对最大奇异值对应的权重分量进行精准正则化。大量实验表明，$S^2D$能显著降低激活异常值，并生成具有良好条件性的表征，这些表征本质上对量化操作更为友好。采用$S^2D$训练的模型在W4A4量化条件下，于ImageNet数据集上实现了高达7%的后训练量化精度提升，与量化感知训练结合时亦可获得4%的增益。这些改进在下游任务和视觉-语言模型中同样具有泛化能力，使得在保持部署效率的前提下，能够扩展日益庞大且经过严格训练的模型规模。

0

相关内容

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

专知会员服务

35+阅读 · 2025年11月8日

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

专知会员服务

11+阅读 · 2025年10月4日

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

专知会员服务

9+阅读 · 2025年3月31日

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

47+阅读 · 2023年10月31日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知会员服务

16+阅读 · 2022年6月30日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

【ICML2020-DeepMind】小数据，大决策:小数据模式下的模型选择

专知会员服务

37+阅读 · 2020年9月14日

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

Attention模型方法综述 | 多篇经典论文解读

Attention模型方法综述 | 多篇经典论文解读

PaperWeekly

107+阅读 · 2018年6月11日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

功能选择性beta2肾上腺素受体激动剂的发现

国家自然科学基金

0+阅读 · 2016年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非线性流形学习的极化SAR特征提取与匹配技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Arxiv

0+阅读 · 3月5日

Hidden Dynamics of Massive Activations in Transformer Training

Arxiv

0+阅读 · 2月24日

Activation-Space Uncertainty Quantification for Pretrained Networks

Arxiv

0+阅读 · 2月23日

Taming Preconditioner Drift: Unlocking the Potential of Second-Order Optimizers for Federated Learning on Non-IID Data

Arxiv

0+阅读 · 2月22日

Enhancing Delta Compression in LLMs via SVD-based Quantization Error Minimization

Arxiv

0+阅读 · 2月15日

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

Arxiv

0+阅读 · 2月14日

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

Arxiv

0+阅读 · 2月12日

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arxiv

0+阅读 · 2月11日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

1+阅读 · 24分钟前

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

1+阅读 · 30分钟前

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

0+阅读 · 35分钟前

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

0+阅读 · 40分钟前

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

1+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

5+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

3+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

5+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

3+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

3+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

11+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

12+阅读 · 4月19日

相关VIP内容

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

《基于强化学习、动态规划与列生成的大规模优化方法》MIT 博士论文

专知会员服务

35+阅读 · 2025年11月8日

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

【NeurIPS2025】SSTAG：面向文本属性图的结构感知自监督学习方法

专知会员服务

11+阅读 · 2025年10月4日

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

【斯坦福博士论文】时序平滑性假设下的深度神经网络自适应与正则化方法

专知会员服务

9+阅读 · 2025年3月31日

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

【NeurIPS2024】PACE：将参数高效微调中的泛化与一致性正则化结合起来

专知会员服务

14+阅读 · 2024年9月26日

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

【NeurIPS2023】SimMMDG：一个简单而有效的多模态领域泛化框架

专知会员服务

47+阅读 · 2023年10月31日

【ICML2022】序列决策的效用理论

【ICML2022】序列决策的效用理论

专知会员服务

16+阅读 · 2022年6月30日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

【NeurIPS2020】梯度增强的转导优化和泛化分析及在多尺度图神经网络中的应用

专知会员服务

14+阅读 · 2020年9月27日

【ICML2020-DeepMind】小数据，大决策:小数据模式下的模型选择

专知会员服务

37+阅读 · 2020年9月14日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

深度多模态表示学习综述论文，22页pdf

深度多模态表示学习综述论文，22页pdf

专知

33+阅读 · 2020年6月21日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

KDD 2019 | 自动探索特征组合，第四范式提出新方法AutoCross

机器之心

18+阅读 · 2019年6月12日

异常检测的阈值，你怎么选？给你整理好了...

异常检测的阈值，你怎么选？给你整理好了...

机器学习算法与Python学习

10+阅读 · 2018年9月19日

Attention模型方法综述 | 多篇经典论文解读

Attention模型方法综述 | 多篇经典论文解读

PaperWeekly

107+阅读 · 2018年6月11日

超全总结：神经网络加速之量化模型 | 附带代码

超全总结：神经网络加速之量化模型 | 附带代码

PaperWeekly

12+阅读 · 2018年6月1日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

纵览轻量化卷积神经网络：SqueezeNet、MobileNet、ShuffleNet、Xception

机器之心

11+阅读 · 2018年1月8日

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

量子位

10+阅读 · 2017年12月10日

相关论文

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Arxiv

0+阅读 · 3月5日

Hidden Dynamics of Massive Activations in Transformer Training

Arxiv

0+阅读 · 2月24日

Activation-Space Uncertainty Quantification for Pretrained Networks

Arxiv

0+阅读 · 2月23日

Taming Preconditioner Drift: Unlocking the Potential of Second-Order Optimizers for Federated Learning on Non-IID Data

Arxiv

0+阅读 · 2月22日

Enhancing Delta Compression in LLMs via SVD-based Quantization Error Minimization

Arxiv

0+阅读 · 2月15日

ParoQuant: Pairwise Rotation Quantization for Efficient Reasoning LLM Inference

Arxiv

0+阅读 · 2月14日

Fine-tuning Quantized Neural Networks with Zeroth-order Optimization

Arxiv

0+阅读 · 2月12日

VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training

Arxiv

0+阅读 · 2月11日

Understanding and Improving Length Generalization in Hierarchical Sparse Attention Models

Arxiv

0+阅读 · 2月5日

Understanding Transformer Optimization via Gradient Heterogeneity

Arxiv

0+阅读 · 1月30日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

功能选择性beta2肾上腺素受体激动剂的发现

国家自然科学基金

0+阅读 · 2016年12月31日

随机振动响应预测中的模型形式不确定性量化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高维回归模型的预测稳定性研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非线性流形学习的极化SAR特征提取与匹配技术研究

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

周期与随机激励下非线性振子动力学行为及识别研究

国家自然科学基金

0+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

代谢组学数据的多层次融合和模型评价方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员