Q3R: Quadratic Reweighted Rank Regularizer for Effective Low-Rank Training - 专知论文

会员服务 ·

0

低秩 · 正则化 · 正则化项 · 微调 · 参数高效 ·

Q3R: Quadratic Reweighted Rank Regularizer for Effective Low-Rank Training

翻译：Q3R：用于高效低秩训练的二次重加权秩正则化器

Ipsita Ghosh,Ethan Nguyen,Christian Kümmerle

Parameter-efficient training based on low-rank optimization has become a highly successful tool for fine-tuning large deep learning models. However, these methods often fail for low-rank pre-training, where simultaneously maintaining low-rank weight structure and optimizing the task objective remains challenging. We propose the $\textit{Quadratic Reweighted Rank Regularizer}$ ($\texttt{Q3R}$), which leads to a novel low-rank-inducing training strategy inspired by the Iteratively Reweighted Least Squares (IRLS) framework. $\texttt{Q3R}$ is based on a quadratic regularizer term that majorizes a smoothed log-determinant rank surrogate. Unlike other low-rank training techniques, $\texttt{Q3R}$ can train weight matrices to prescribed low target ranks while achieving predictive performance comparable to dense models, with small computational overhead and full compatibility with existing architectures. For example, we demonstrate a $\texttt{Q3R}$-regularized ViT-Tiny experiment where truncating the model to $60\%$ and $80\%$ of its parameters results in only minor absolute accuracy drops of $1.3\%$ and $4\%$, respectively, on CIFAR-10. We confirm the efficacy of $\texttt{Q3R}$ on Transformers across both vision and language tasks, including low-rank fine-tuning.

翻译：基于低秩优化的参数高效训练已成为微调大型深度学习模型的极其成功的工具。然而，这些方法在低秩预训练中常常失效，因为同时保持低秩权重结构和优化任务目标仍然具有挑战性。我们提出了$\textit{二次重加权秩正则化器}$（$\texttt{Q3R}$），它受迭代重加权最小二乘（IRLS）框架启发，形成了一种新颖的低秩诱导训练策略。$\texttt{Q3R}$基于一个二次正则化项，该正则化项主控了一个平滑的对数行列式秩代理。与其他低秩训练技术不同，$\texttt{Q3R}$能够将权重矩阵训练到预设的低目标秩，同时获得与密集模型相当的预测性能，且计算开销小，并与现有架构完全兼容。例如，我们展示了一个$\texttt{Q3R}$正则化的ViT-Tiny实验，将模型参数截断至其原始参数的$60\%$和$80\%$时，在CIFAR-10数据集上仅分别导致$1.3\%$和$4\%$的微小绝对精度下降。我们在视觉和语言任务（包括低秩微调）上，通过Transformer模型验证了$\texttt{Q3R}$的有效性。

0

相关内容

大模型训练与适配中的低秩结构研究综述

大模型训练与适配中的低秩结构研究综述

专知会员服务

19+阅读 · 2025年3月27日

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

专知会员服务

19+阅读 · 2024年11月15日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

除了DQN/A3C，还有哪些高级强化学习成果

除了DQN/A3C，还有哪些高级强化学习成果

论智

15+阅读 · 2018年10月28日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于张量结构和lq范数的低秩张量恢复和补全

国家自然科学基金

1+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高阶张量的低秩恢复问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

Arxiv

0+阅读 · 3月13日

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Arxiv

0+阅读 · 3月9日

3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

Arxiv

0+阅读 · 3月2日

Revisiting Weight Regularization for Low-Rank Continual Learning

Arxiv

0+阅读 · 2月19日

DeepMTL2R: A Library for Deep Multi-task Learning to Rank

Arxiv

0+阅读 · 2月16日

Accelerating nuclear-norm regularized low-rank matrix optimization through Burer-Monteiro decomposition

Arxiv

0+阅读 · 2月12日

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

Arxiv

1+阅读 · 2月9日

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations

Arxiv

0+阅读 · 2月7日

DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks

Arxiv

0+阅读 · 2月6日

Nonlinearity as Rank: Generative Low-Rank Adapter with Radial Basis Functions

Arxiv

0+阅读 · 2月5日

VIP会员

文章信息

相关主题

最新内容

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

2+阅读 · 今天15:00

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

2+阅读 · 今天14:54

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

1+阅读 · 今天14:49

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

1+阅读 · 今天14:44

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

2+阅读 · 今天14:03

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

0+阅读 · 今天13:36

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

0+阅读 · 今天13:34

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

6+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

4+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

6+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

4+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

4+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

12+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

13+阅读 · 4月19日

相关VIP内容

大模型训练与适配中的低秩结构研究综述

大模型训练与适配中的低秩结构研究综述

专知会员服务

19+阅读 · 2025年3月27日

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏与低秩矩阵优化在机器学习应用中的进展

专知会员服务

19+阅读 · 2024年11月15日

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

【MIT博士论文】机器学习应用中稀疏和低秩矩阵优化的进展

专知会员服务

28+阅读 · 2024年11月9日

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

【MIT博士论文】稀疏和低秩矩阵优化在机器学习应用中的进展

专知会员服务

34+阅读 · 2024年10月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

【CMU-Yuejie Chi等干货书】满足低秩矩阵分解的非凸优化综述，69页pdf，Nonconvex Optimization Meets Low-Rank Matrix Factorization: An Overview

专知会员服务

33+阅读 · 2022年3月4日

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

新加坡国立大学最新「大规模深度学习优化」综述论文，带你全面了解最新深度学习准确率和效率的优化方法

专知会员服务

54+阅读 · 2021年11月19日

低秩稀疏矩阵优化问题的模型与算法

专知会员服务

46+阅读 · 2020年7月29日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《系统簇式多域作战规划范畴论框架》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

相关资讯

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

【万字长文总结】如何解决"稀疏奖励(Sparse Reward)"下的强化学习问题？

深度强化学习实验室

43+阅读 · 2020年7月6日

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

FewRel 2.0数据集：以近知远，以一知万，少次学习新挑战

PaperWeekly

24+阅读 · 2019年11月6日

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

Dropout、梯度消失/爆炸、Adam优化算法，神经网络优化算法看这一篇就够了

AI100

14+阅读 · 2019年9月1日

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

【Github项目】基于Keras的BERT实现，可直接载入官方预训练模型

专知

20+阅读 · 2019年6月27日

机器学习中的最优化算法总结

机器学习中的最优化算法总结

人工智能前沿讲习班

22+阅读 · 2019年3月22日

博客 | 机器学习中的数学基础（凸优化）

博客 | 机器学习中的数学基础（凸优化）

AI研习社

14+阅读 · 2018年12月16日

加速机器学习：从主动学习到BERT和流体标注

加速机器学习：从主动学习到BERT和流体标注

AINLP

15+阅读 · 2018年12月12日

除了DQN/A3C，还有哪些高级强化学习成果

除了DQN/A3C，还有哪些高级强化学习成果

论智

15+阅读 · 2018年10月28日

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

代码+实战：TensorFlow Estimator of Deep CTR —— DeepFM/NFM/AFM/FNN/PNN

AI研习社

14+阅读 · 2018年2月17日

从浅层模型到深度模型：概览机器学习优化算法

从浅层模型到深度模型：概览机器学习优化算法

机器之心

27+阅读 · 2017年7月9日

相关论文

ZO-SAM: Zero-Order Sharpness-Aware Minimization for Efficient Sparse Training

Arxiv

0+阅读 · 3月13日

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Arxiv

0+阅读 · 3月9日

3BASiL: An Algorithmic Framework for Sparse plus Low-Rank Compression of LLMs

Arxiv

0+阅读 · 3月2日

Revisiting Weight Regularization for Low-Rank Continual Learning

Arxiv

0+阅读 · 2月19日

DeepMTL2R: A Library for Deep Multi-task Learning to Rank

Arxiv

0+阅读 · 2月16日

Accelerating nuclear-norm regularized low-rank matrix optimization through Burer-Monteiro decomposition

Arxiv

0+阅读 · 2月12日

ABBA-Adapters: Efficient and Expressive Fine-Tuning of Foundation Models

Arxiv

1+阅读 · 2月9日

ODELoRA: Training Low-Rank Adaptation by Solving Ordinary Differential Equations

Arxiv

0+阅读 · 2月7日

DoRAN: Stabilizing Weight-Decomposed Low-Rank Adaptation via Noise Injection and Auxiliary Networks

Arxiv

0+阅读 · 2月6日

Nonlinearity as Rank: Generative Low-Rank Adapter with Radial Basis Functions

Arxiv

0+阅读 · 2月5日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于张量结构和lq范数的低秩张量恢复和补全

国家自然科学基金

1+阅读 · 2015年12月31日

低秩张量补全问题的算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

稀疏表达下社会化正则方法与低秩分解推荐模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于约束等距条件的噪音低秩矩阵恢复算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于自适应交叉近似的低秩分解算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

矩阵低秩稀疏分解的两步凸松弛法研究

国家自然科学基金

2+阅读 · 2015年12月31日

高阶张量的低秩恢复问题研究

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员