PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training - 专知论文

会员服务 ·

0

Weight · 层 · 大语言模型 · 原点 · 推断 ·

PC Layer: Polynomial Weight Preconditioning for Improving LLM Pre-Training

翻译：暂无翻译

Senmiao Wang,Tiantian Fang,Haoran Zhang,Yushun Zhang,Kunxiang Zhao,Alex Schwing,Ruoyu Sun

We propose a preconditioning (PC) layer, a weight parameterization via polynomial preconditioner that ensures stable weight conditioning throughout LLM training. The PC module reshapes the singular-value spectrum of weight matrices via low-degree polynomial preconditioning. After training, the preconditioned weights can be merged back into the original architecture, incurring no inference overhead. We demonstrate the advantage of the proposed PC layer over standard transformers in Llama-1B pre-training, for both the AdamW and Muon optimizers. Theoretically, we justify this spectrum-control principle by proving that uniformly bounding each layer's singular values ensures geometric convergence of gradient descent to global minima, for certain deep linear networks. Our code is available at https://github.com/Empath-aln/PC-layer.

翻译：暂无翻译

0

相关内容

Weight

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

专知会员服务

10+阅读 · 2024年12月5日

UvA 《大模型》课程，涵盖预训练、对齐、参数高效微调、扩散模型

UvA 《大模型》课程，涵盖预训练、对齐、参数高效微调、扩散模型

专知会员服务

44+阅读 · 2024年4月22日

预训练视觉模型的参数高效微调

预训练视觉模型的参数高效微调

专知会员服务

32+阅读 · 2024年3月19日

ICLR2023：通过提示学习的蛋白质多级结构预训练

ICLR2023：通过提示学习的蛋白质多级结构预训练

专知会员服务

12+阅读 · 2023年11月26日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡图灵智库】基于上采样预积分测量值的3D Lidar-IMU校准来矫正运动失真

【泡泡图灵智库】基于上采样预积分测量值的3D Lidar-IMU校准来矫正运动失真

泡泡机器人SLAM

11+阅读 · 2019年9月17日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

Layer Normalization原理及其TensorFlow实现

Layer Normalization原理及其TensorFlow实现

深度学习每日摘要

32+阅读 · 2017年6月17日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

PCC能量桩桩身变形分布式测量及其桩土作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复合材料板壳结构低速冲击损伤问题的扩展逐层理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于群论的预应力索杆体系刚度解析与形态优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

CS-胶原改性的PCL/脱细胞髓核基质仿生支架联合人脐带间充质干细胞构建组织工程椎间盘

国家自然科学基金

0+阅读 · 2015年12月31日

延迟Hamilton系统保结构算法研究及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

薄壁构件硬涂层阻尼减振的多尺度模拟方法与主动设计

国家自然科学基金

0+阅读 · 2014年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

基于碳纤维材料的预应力混凝土结构自感知特性及其应用基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

C/C复合材料预制体中碳纳米管可控生长与强韧机制

国家自然科学基金

0+阅读 · 2014年12月31日

Random Proposals: A Softmax-Based Local-Improvement Framework for Maximum Weighted Matching

Arxiv

0+阅读 · 6月10日

PALUTE: Processing-In-Memory Acceleration via Lookup Table for Edge LLM Inference

Arxiv

0+阅读 · 6月8日

Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

Arxiv

0+阅读 · 6月3日

DTop-p MoE: Sparsity-Controlled Dynamic Top-p MoE for Foundation Model Pre-training

Arxiv

0+阅读 · 5月29日

A first-order method for constrained nonconvex-nonconcave minimax optimization

Arxiv

0+阅读 · 5月26日

Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate

Arxiv

0+阅读 · 5月20日

Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches

Arxiv

0+阅读 · 5月18日

Polymorphic Bottom-Up Weighted Relational Programming

Arxiv

0+阅读 · 5月14日

DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72

Arxiv

0+阅读 · 5月12日

Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

0+阅读 · 2分钟前

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

6+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

5+阅读 · 6月16日

《通用大语言模型：无人机指挥与控制接口》最新40页

《通用大语言模型：无人机指挥与控制接口》最新40页

专知会员服务

15+阅读 · 6月16日

《通过小型无人机系统将情报能力“作战化”》

《通过小型无人机系统将情报能力“作战化”》

专知会员服务

6+阅读 · 6月16日

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

《神经安全型有人–无人协同：面向认知自适应作战能力的参考架构》

专知会员服务

10+阅读 · 6月16日

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

《在指挥链中通过多准则决策分析传达指挥官意图：空战实验》

专知会员服务

21+阅读 · 6月15日

消耗优势：美军的“精确规模化”概念

消耗优势：美军的“精确规模化”概念

专知会员服务

8+阅读 · 6月15日

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

五角大楼的AI优先战略及其对现代战争的启示：来自与伊朗冲突的经验教训

专知会员服务

9+阅读 · 6月15日

《网络空间兵棋推演：挑战、局限性与混合路径》报告

《网络空间兵棋推演：挑战、局限性与混合路径》报告

专知会员服务

9+阅读 · 6月15日

《离线语言支持系统：面向空战战术决策》

《离线语言支持系统：面向空战战术决策》

专知会员服务

10+阅读 · 6月15日

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

《以通信为中心的6G–LLM架构：面向可扩展的战术自主防御车辆网络》

专知会员服务

9+阅读 · 6月15日

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

6+阅读 · 6月14日

相关VIP内容

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

NeurIPS 2024 | DePLM: 用扩散去噪过程帮助大模型进行蛋白质优化

专知会员服务

10+阅读 · 2024年12月5日

UvA 《大模型》课程，涵盖预训练、对齐、参数高效微调、扩散模型

UvA 《大模型》课程，涵盖预训练、对齐、参数高效微调、扩散模型

专知会员服务

44+阅读 · 2024年4月22日

预训练视觉模型的参数高效微调

预训练视觉模型的参数高效微调

专知会员服务

32+阅读 · 2024年3月19日

ICLR2023：通过提示学习的蛋白质多级结构预训练

ICLR2023：通过提示学习的蛋白质多级结构预训练

专知会员服务

12+阅读 · 2023年11月26日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

【预训练论文】预训练Transformer校准，Calibration of Pre-trained Transformers

专知会员服务

26+阅读 · 2020年3月19日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

【微软研究院】IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

专知会员服务

43+阅读 · 2020年1月28日

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

【ICLR2020 预训练的百科全书】弱监督的知识-预训练的语言模型（PRETRAINED ENCYCLOPEDIA: WEAKLY SUPERVISED KNOWLEDGE-PRETRAINED LANGUAGE MODEL）

专知会员服务

25+阅读 · 2019年12月26日

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

微软发布DialoGPT预训练语言模型，论文与代码 Large-Scale Generative Pre-training for Conversational Response Generation

专知会员服务

28+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

多模态代码智能综述：从视觉输入到可执行代码系统

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

相关资讯

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

KG 高引论文解读两篇 | 两种模型：多层卷积神经网络、知识感知路径递归网络

学术头条

18+阅读 · 2019年12月8日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【泡泡图灵智库】基于上采样预积分测量值的3D Lidar-IMU校准来矫正运动失真

【泡泡图灵智库】基于上采样预积分测量值的3D Lidar-IMU校准来矫正运动失真

泡泡机器人SLAM

11+阅读 · 2019年9月17日

初学者系列：Attentional Factorization Machines（AFM）详解

初学者系列：Attentional Factorization Machines（AFM）详解

专知

82+阅读 · 2019年9月16日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

IJCAI | Cascade Dynamics Modeling with Attention-based RNN

KingsGarden

13+阅读 · 2017年7月16日

Layer Normalization原理及其TensorFlow实现

Layer Normalization原理及其TensorFlow实现

深度学习每日摘要

32+阅读 · 2017年6月17日

From Softmax to Sparsemax-ICML16（1）

From Softmax to Sparsemax-ICML16（1）

KingsGarden

74+阅读 · 2016年11月26日

相关论文

Random Proposals: A Softmax-Based Local-Improvement Framework for Maximum Weighted Matching

Arxiv

0+阅读 · 6月10日

PALUTE: Processing-In-Memory Acceleration via Lookup Table for Edge LLM Inference

Arxiv

0+阅读 · 6月8日

Statistically Reliable LLM-Based Ranking Evaluation via Prediction-Powered Inference

Arxiv

0+阅读 · 6月3日

DTop-p MoE: Sparsity-Controlled Dynamic Top-p MoE for Foundation Model Pre-training

Arxiv

0+阅读 · 5月29日

A first-order method for constrained nonconvex-nonconcave minimax optimization

Arxiv

0+阅读 · 5月26日

Quantifying Hyperparameter Transfer and the Importance of Embedding Layer Learning Rate

Arxiv

0+阅读 · 5月20日

Democratizing Large-Scale Re-Optimization with LLM-Guided Model Patches

Arxiv

0+阅读 · 5月18日

Polymorphic Bottom-Up Weighted Relational Programming

Arxiv

0+阅读 · 5月14日

DWDP: Distributed Weight Data Parallelism for High-Performance LLM Inference on NVL72

Arxiv

0+阅读 · 5月12日

Piper: Efficient Large-Scale MoE Training via Resource Modeling and Pipelined Hybrid Parallelism

Arxiv

0+阅读 · 5月6日

相关基金

PCC能量桩桩身变形分布式测量及其桩土作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

复合材料板壳结构低速冲击损伤问题的扩展逐层理论研究及其应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于群论的预应力索杆体系刚度解析与形态优化研究

国家自然科学基金

0+阅读 · 2015年12月31日

众核集群上基于MPI的模型扩展及性能优化研究

国家自然科学基金

1+阅读 · 2015年12月31日

CS-胶原改性的PCL/脱细胞髓核基质仿生支架联合人脐带间充质干细胞构建组织工程椎间盘

国家自然科学基金

0+阅读 · 2015年12月31日

延迟Hamilton系统保结构算法研究及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

薄壁构件硬涂层阻尼减振的多尺度模拟方法与主动设计

国家自然科学基金

0+阅读 · 2014年12月31日

由偏振标记，由光纤远程柔性、共路传输的二合一固体微片激光回馈干涉仪

国家自然科学基金

0+阅读 · 2014年12月31日

基于碳纤维材料的预应力混凝土结构自感知特性及其应用基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

C/C复合材料预制体中碳纳米管可控生长与强韧机制

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员