Astra: Activation-Space Tail-Eigenvector Low-Rank Adaptation of Large Language Models - 专知论文

会员服务 ·

0

特征向量 · 低秩 · 适配 · 低秩适配 · 微调 ·

Astra: Activation-Space Tail-Eigenvector Low-Rank Adaptation of Large Language Models

翻译：Astra：大语言模型的激活空间尾部特征向量低秩适配

Kainan Liu,Yong Zhang,Ning Cheng,Yun Zhu,Yanmeng Wang,Shaojun Wang,Jing Xiao

from arxiv, 22 pages, 10 figures

Parameter-Efficient Fine-Tuning (PEFT) methods, especially LoRA, are widely used for adapting pre-trained models to downstream tasks due to their computational and storage efficiency. However, in the context of LoRA and its variants, the potential of activation subspaces corresponding to tail eigenvectors remains substantially under-exploited, which may lead to suboptimal fine-tuning performance. In this work, we propose Astra (Activation-Space Tail-Eigenvector Low-Rank Adaptation), a novel PEFT method that leverages the tail eigenvectors of the model output activations-estimated from a small task-specific calibration set-to construct task-adaptive low-rank adapters. By constraining updates to the subspace spanned by these tail eigenvectors, Astra achieves faster convergence and improved downstream performance with a significantly reduced parameter budget. Extensive experiments across natural language understanding (NLU) and natural language generation (NLG) tasks demonstrate that Astra consistently outperforms existing PEFT baselines across 16 benchmarks and even surpasses full fine-tuning (FFT) in certain scenarios.

翻译：参数高效微调方法，特别是LoRA，因其计算和存储效率而被广泛用于使预训练模型适应下游任务。然而，在LoRA及其变体的背景下，与尾部特征向量对应的激活子空间的潜力在很大程度上仍未得到充分探索，这可能导致次优的微调性能。在本工作中，我们提出了Astra（激活空间尾部特征向量低秩适配），这是一种新颖的PEFT方法，它利用模型输出激活的尾部特征向量——通过一个小的任务特定校准集估计得到——来构建任务自适应的低秩适配器。通过将更新约束在这些尾部特征向量所张成的子空间内，Astra以显著减少的参数预算实现了更快的收敛和提升的下游性能。在自然语言理解和自然语言生成任务上的大量实验表明，Astra在16个基准测试中始终优于现有的PEFT基线，甚至在特定场景下超越了全参数微调。

0

相关内容

特征向量

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

【ICML2025】扩散模型中参数高效微调的零样本适应

【ICML2025】扩散模型中参数高效微调的零样本适应

专知会员服务

13+阅读 · 2025年6月7日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

专知会员服务

15+阅读 · 2025年1月5日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

大信号及宽带调制信号激励下AlGaN/GaN HEMT功率器件行为模型建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

变指数模化空间的特征及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

高动态环境下低可探测性飞行器自主任务规划方法研究

国家自然科学基金

18+阅读 · 2013年12月31日

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月25日

Low-Rank Adaptation Redux for Large Models

Arxiv

0+阅读 · 4月23日

GiVA: Gradient-Informed Bases for Vector-Based Adaptation

Arxiv

0+阅读 · 4月23日

ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs

Arxiv

0+阅读 · 4月20日

TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models

Arxiv

0+阅读 · 4月14日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月10日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月7日

DR-LoRA: Dynamic Rank LoRA for Fine-Tuning Mixture-of-Experts Models

Arxiv

0+阅读 · 4月1日

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Arxiv

0+阅读 · 3月25日

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Arxiv

0+阅读 · 3月9日

VIP会员

文章信息

相关主题

最新内容

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

专知会员服务

1+阅读 · 今天15:19

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

专知会员服务

1+阅读 · 今天15:17

俄乌战场地面机器人如何改写战争规则

俄乌战场地面机器人如何改写战争规则

专知会员服务

3+阅读 · 今天13:58

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

专知会员服务

3+阅读 · 今天13:36

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

《新空中力量概念：来自敏捷战斗运用的启示》2026最新50页报告

专知会员服务

3+阅读 · 今天13:33

《无人水面艇文献综述与结构设计》135页

《无人水面艇文献综述与结构设计》135页

专知会员服务

10+阅读 · 6月13日

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

《自主蜂群系统的战略架构：多域一体化、抗毁韧性及海上作战框架（2025—2035）》46页报告

专知会员服务

9+阅读 · 6月13日

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

ICML 2026｜MEMOPILOT：用强化学习训练会进化的智能体记忆

专知会员服务

2+阅读 · 6月13日

智能体时间序列系统全景综述：架构、可靠性与研究前沿

智能体时间序列系统全景综述：架构、可靠性与研究前沿

专知会员服务

10+阅读 · 6月13日

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

8+阅读 · 6月12日

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

22+阅读 · 6月12日

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

7+阅读 · 6月12日

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

12+阅读 · 6月12日

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

9+阅读 · 6月12日

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

13+阅读 · 6月12日

相关VIP内容

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

【ICML2025】扩散模型中参数高效微调的零样本适应

【ICML2025】扩散模型中参数高效微调的零样本适应

专知会员服务

13+阅读 · 2025年6月7日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

【AAAI2025】用于高效大语言模型训练的梯度权重归一化低秩投影

专知会员服务

15+阅读 · 2025年1月5日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

热门VIP内容

开通专知VIP会员享更多权益服务

可信智能体AI综述：安全、鲁棒性、隐私与系统安全

美国海军研究生院第23届年度采购研究研讨会与创新峰会：主题“加速作战能力”，附会议报告论文集1300页

ICML 2026｜ECA：面向开放式图文生成的高效持续对齐

俄乌战场地面机器人如何改写战争规则

相关资讯

稀疏大模型简述：从MoE、Sparse Attention到GLaM

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

【干货书-斯坦福】最优化算法，521页pdf，《Algorithms for Optimization》MIT出版社

专知

58+阅读 · 2020年7月2日

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

Keras新增TextVectorization层，可直接将文本字符串作为模型输入

专知

19+阅读 · 2019年11月22日

以BERT为例,如何优化机器学习模型性能?

以BERT为例,如何优化机器学习模型性能?

专知

10+阅读 · 2019年10月3日

激活函数还是有一点意思的！

激活函数还是有一点意思的！

计算机视觉战队

12+阅读 · 2019年6月28日

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

10+阅读 · 2019年2月18日

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

用 LDA 和 LSA 两种方法来降维和做 Topic 建模

AI研习社

13+阅读 · 2018年8月24日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

视觉里程计：起源、优势、对比、应用

视觉里程计：起源、优势、对比、应用

计算机视觉life

18+阅读 · 2017年7月17日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

MLorc: Momentum Low-rank Compression for Memory Efficient Large Language Model Adaptation

Arxiv

0+阅读 · 4月25日

Low-Rank Adaptation Redux for Large Models

Arxiv

0+阅读 · 4月23日

GiVA: Gradient-Informed Bases for Vector-Based Adaptation

Arxiv

0+阅读 · 4月23日

ASTRA: An Automated Framework for Strategy Discovery, Retrieval, and Evolution for Jailbreaking LLMs

Arxiv

0+阅读 · 4月20日

TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models

Arxiv

0+阅读 · 4月14日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月10日

ALTO: Adaptive LoRA Tuning and Orchestration for Heterogeneous LoRA Training Workloads

Arxiv

0+阅读 · 4月7日

DR-LoRA: Dynamic Rank LoRA for Fine-Tuning Mixture-of-Experts Models

Arxiv

0+阅读 · 4月1日

TuneShift-KD: Knowledge Distillation and Transfer for Fine-tuned Models

Arxiv

0+阅读 · 3月25日

HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture

Arxiv

0+阅读 · 3月9日

相关基金

面向特征提取的低秩与稀疏图嵌入理论与算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

人类视空间分类的神经机制

国家自然科学基金

1+阅读 · 2015年12月31日

大信号及宽带调制信号激励下AlGaN/GaN HEMT功率器件行为模型建模方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

有理 Krylov 子空间算法的最优参数选取

国家自然科学基金

0+阅读 · 2015年12月31日

基于Lotka-Volterra种群模型和广义效益的公共交通出行结构优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

个性化特征大数据支持下的交互式进化计算及其应用

国家自然科学基金

1+阅读 · 2015年12月31日

几类含∞-Laplace算子的特征值问题的研究

国家自然科学基金

1+阅读 · 2015年12月31日

变指数模化空间的特征及其应用

国家自然科学基金

0+阅读 · 2014年12月31日

高动态环境下低可探测性飞行器自主任务规划方法研究

国家自然科学基金

18+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员