AFA-LoRA: Enabling Non-Linear Adaptations in LoRA with Activation Function Annealing - 专知论文

会员服务 ·

0

LoRA · 自适应 · 退火 · 激活函数 · 参数高效 ·

AFA-LoRA: Enabling Non-Linear Adaptations in LoRA with Activation Function Annealing

翻译：AFA-LoRA：通过激活函数退火在LoRA中实现非线性自适应

Jiacheng Li,Jianchao Tan,Zhidong Yang,Feiye Huo,Yerui Sun,Yuchen Xie,Xunliang Cai

Low-Rank Adaptation (LoRA) is a widely adopted parameter-efficient fine-tuning (PEFT) method. However, its linear adaptation process limits its expressive power. This means there is a gap between the expressive power of linear training and non-linear training. To bridge this gap, we propose AFA-LoRA, a novel training strategy that brings non-linear expressivity to LoRA while maintaining its seamless mergeability. Our key innovation is an annealed activation function that transitions from a non-linear to a linear transformation during training, allowing the adapter to initially adopt stronger representational capabilities before converging to a mergeable linear form. We implement our method on supervised fine-tuning, reinforcement learning, and speculative decoding. The results show that AFA-LoRA reduces the performance gap between LoRA and full-parameter training. This work enables a more powerful and practical paradigm of parameter-efficient adaptation.

翻译：低秩自适应（LoRA）是一种广泛采用的参数高效微调方法。然而，其线性自适应过程限制了其表达能力，这意味着线性训练与非线性训练的表达能力之间存在差距。为弥合这一差距，我们提出了AFA-LoRA，这是一种新颖的训练策略，在保持其无缝可合并性的同时，为LoRA引入了非线性表达能力。我们的核心创新是一种退火激活函数，其在训练过程中从非线性变换过渡到线性变换，使适配器能够先获得更强的表征能力，再收敛至可合并的线性形式。我们在监督微调、强化学习和推测解码任务上实现了该方法。结果表明，AFA-LoRA缩小了LoRA与全参数训练之间的性能差距。这项工作为参数高效自适应提供了一种更强大且实用的范式。

0

相关内容

LoRA

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICML2025】扩散模型中参数高效微调的零样本适应

【ICML2025】扩散模型中参数高效微调的零样本适应

专知会员服务

13+阅读 · 2025年6月7日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

专知会员服务

35+阅读 · 2024年1月20日

领域自适应在实际中如何用? UNC最新《无源无监督领域自适应SFUDA》综述论文，详述白盒SFUDA和黑盒SFUDA技术进展

领域自适应在实际中如何用? UNC最新《无源无监督领域自适应SFUDA》综述论文，详述白盒SFUDA和黑盒SFUDA技术进展

专知会员服务

23+阅读 · 2023年1月6日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

21+阅读 · 2022年12月12日

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

单分子拉曼散射过程非线性与相干性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

鼠伤寒沙门氏菌耐药调控蛋白RamA对自动诱导子AI-2的分子调控机制

国家自然科学基金

1+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

非理想条件下基于联合稀疏恢复的机载雷达杂波抑制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Aurora-A通过抑制细胞衰老介导卵巢癌化疗抵抗的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

混沌系统全局吸引集的新结果及对混沌控制与同步的应用

国家自然科学基金

0+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

Nonlinearity as Rank: Generative Low-Rank Adapter with Radial Basis Functions

Arxiv

0+阅读 · 2月5日

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

Arxiv

0+阅读 · 2月3日

NP-LoRA: Null Space Projection Unifies Subject and Style in LoRA Fusion

Arxiv

0+阅读 · 2月2日

A Unified Study of LoRA Variants: Taxonomy, Review, Codebase, and Empirical Evaluation

Arxiv

0+阅读 · 1月30日

TensLoRA: Tensor Alternatives for Low-Rank Adaptation

Arxiv

0+阅读 · 1月26日

ShapLoRA: Allocation of Low-rank Adaption on Large Language Models via Shapley Value Inspired Importance Estimation

Arxiv

0+阅读 · 1月25日

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Arxiv

0+阅读 · 1月15日

Put the Space of LoRA Initialization to the Extreme to Preserve Pre-trained Knowledge

Arxiv

0+阅读 · 1月12日

Dual LoRA: Enhancing LoRA with Magnitude and Direction Updates

Arxiv

0+阅读 · 1月1日

Collaborative Low-Rank Adaptation for Pre-Trained Vision Transformers

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

专知会员服务

1+阅读 · 43分钟前

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

专知会员服务

1+阅读 · 47分钟前

《无人机革命：来自俄乌战场的启示》（报告）

《无人机革命：来自俄乌战场的启示》（报告）

专知会员服务

2+阅读 · 53分钟前

《实现联合作战能力所需的技术》58页报告

《实现联合作战能力所需的技术》58页报告

专知会员服务

1+阅读 · 今天6:30

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

《算法化目标定位：人工智能在以色列加沙打击行动中的作用及其伦理影响》（中文版）

专知会员服务

1+阅读 · 今天6:22

以色列运用人工智能优化空袭警报系统

以色列运用人工智能优化空袭警报系统

专知会员服务

0+阅读 · 今天6:20

以色列在多条战线部署AI智能体

以色列在多条战线部署AI智能体

专知会员服务

1+阅读 · 今天6:12

《将形式化方法工具应用于电子战代码库（经验报告）》

《将形式化方法工具应用于电子战代码库（经验报告）》

专知会员服务

1+阅读 · 今天6:09

2025年大语言模型进展报告

2025年大语言模型进展报告

专知会员服务

13+阅读 · 4月25日

多智能体协作机制

多智能体协作机制

专知会员服务

12+阅读 · 4月25日

非对称优势：美海军开发低成本反无人机技术

非对称优势：美海军开发低成本反无人机技术

专知会员服务

9+阅读 · 4月25日

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

《反无人机技术领域的技术发展综述：C-UAS探测、跟踪与识别技术》80页报告

专知会员服务

19+阅读 · 4月25日

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

8+阅读 · 4月25日

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

12+阅读 · 4月25日

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

9+阅读 · 4月24日

相关VIP内容

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

LoRA 变体的统一研究：分类体系、文献综述、开源代码库与实证评估

专知会员服务

13+阅读 · 2月2日

【ICML2025】扩散模型中参数高效微调的零样本适应

【ICML2025】扩散模型中参数高效微调的零样本适应

专知会员服务

13+阅读 · 2025年6月7日

【ICLR2025】大型语言模型的动态低秩稀疏适应

【ICLR2025】大型语言模型的动态低秩稀疏适应

专知会员服务

14+阅读 · 2025年2月21日

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

【ICLR2025】RANDLORA: 全秩参数高效微调大规模模型

专知会员服务

15+阅读 · 2025年2月4日

大语言模型的LoRA研究综述

大语言模型的LoRA研究综述

专知会员服务

55+阅读 · 2024年7月17日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

【ICML2024】DoRA：权重分解的低秩适应

【ICML2024】DoRA：权重分解的低秩适应

专知会员服务

20+阅读 · 2024年5月6日

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

【ICLR2024】MathVista:视觉背景下基础模型的数学推理评估

专知会员服务

35+阅读 · 2024年1月20日

领域自适应在实际中如何用? UNC最新《无源无监督领域自适应SFUDA》综述论文，详述白盒SFUDA和黑盒SFUDA技术进展

领域自适应在实际中如何用? UNC最新《无源无监督领域自适应SFUDA》综述论文，详述白盒SFUDA和黑盒SFUDA技术进展

专知会员服务

23+阅读 · 2023年1月6日

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

《下一代 CubeSat 轨道网状网络资产、挑战和架构 - LORA 复制与软件定义无线电》美海军2022最新76页论文

专知会员服务

21+阅读 · 2022年12月12日

热门VIP内容

开通专知VIP会员享更多权益服务

加拿大国防部发布项目需求：用于高级态势决策的多模态人工智能

《实现联合作战能力所需的技术》58页报告

《将小型无人机系统与巡飞弹集成至连及以下级别战术机动》（美陆军最新报告中文版）

《无人机革命：来自俄乌战场的启示》（报告）

相关资讯

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

【牛津大学博士论文】元强化学习的快速自适应，217页pdf

专知

30+阅读 · 2022年9月19日

【深度度量学习系列】Triplet-loss原理与应用

【深度度量学习系列】Triplet-loss原理与应用

AINLP

61+阅读 · 2020年10月7日

一文读懂线性回归、岭回归和Lasso回归

一文读懂线性回归、岭回归和Lasso回归

CSDN

34+阅读 · 2019年10月13日

【机器学习】一文读懂线性回归、岭回归和Lasso回归

【机器学习】一文读懂线性回归、岭回归和Lasso回归

AINLP

20+阅读 · 2019年10月12日

【资源】领域自适应相关论文、代码分享

【资源】领域自适应相关论文、代码分享

专知

32+阅读 · 2019年10月12日

CALDERA 一款对手自动模拟工具

CALDERA 一款对手自动模拟工具

黑白之道

20+阅读 · 2019年9月17日

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

ACL 2019论文分享：ARNOR增强模型注意力，降低远监督学习中的噪声

AINLP

53+阅读 · 2019年8月15日

领域自适应学习论文大列表

领域自适应学习论文大列表

专知

71+阅读 · 2019年3月2日

自定义损失函数Gradient Boosting

自定义损失函数Gradient Boosting

AI研习社

14+阅读 · 2018年10月16日

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

模型汇总24 - 深度学习中Attention Mechanism详细介绍：原理、分类及应用

深度学习与NLP

12+阅读 · 2017年11月30日

相关论文

Nonlinearity as Rank: Generative Low-Rank Adapter with Radial Basis Functions

Arxiv

0+阅读 · 2月5日

ZipLoRA: Any Subject in Any Style by Effectively Merging LoRAs

Arxiv

0+阅读 · 2月3日

NP-LoRA: Null Space Projection Unifies Subject and Style in LoRA Fusion

Arxiv

0+阅读 · 2月2日

A Unified Study of LoRA Variants: Taxonomy, Review, Codebase, and Empirical Evaluation

Arxiv

0+阅读 · 1月30日

TensLoRA: Tensor Alternatives for Low-Rank Adaptation

Arxiv

0+阅读 · 1月26日

ShapLoRA: Allocation of Low-rank Adaption on Large Language Models via Shapley Value Inspired Importance Estimation

Arxiv

0+阅读 · 1月25日

GraLoRA: Granular Low-Rank Adaptation for Parameter-Efficient Fine-Tuning

Arxiv

0+阅读 · 1月15日

Put the Space of LoRA Initialization to the Extreme to Preserve Pre-trained Knowledge

Arxiv

0+阅读 · 1月12日

Dual LoRA: Enhancing LoRA with Magnitude and Direction Updates

Arxiv

0+阅读 · 1月1日

Collaborative Low-Rank Adaptation for Pre-Trained Vision Transformers

Arxiv

0+阅读 · 2025年12月31日

相关基金

不确定分数阶非线性系统Mittag-Leffler自适应控制

国家自然科学基金

1+阅读 · 2016年12月31日

单分子拉曼散射过程非线性与相干性的研究

国家自然科学基金

0+阅读 · 2015年12月31日

鼠伤寒沙门氏菌耐药调控蛋白RamA对自动诱导子AI-2的分子调控机制

国家自然科学基金

1+阅读 · 2015年12月31日

随机非线性量化反馈系统的自适应模糊控制研究

国家自然科学基金

0+阅读 · 2015年12月31日

非凸稀疏优化的恢复条件与低复杂度算法的研究

国家自然科学基金

1+阅读 · 2015年12月31日

非光滑非凸优化问题的交替线性化算法及其应用

国家自然科学基金

6+阅读 · 2015年12月31日

非理想条件下基于联合稀疏恢复的机载雷达杂波抑制方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

Aurora-A通过抑制细胞衰老介导卵巢癌化疗抵抗的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

混沌系统全局吸引集的新结果及对混沌控制与同步的应用

国家自然科学基金

0+阅读 · 2014年12月31日

雷达系统自适应抗干扰方法研究

国家自然科学基金

10+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员