EMLoC：基于模拟器的内存高效微调与LoRA校正 (EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction) - 专知论文

会员服务 ·

0

微调 · 内存 · LoRA · 奇异值分解 · 相同 ·

EMLoC: Emulator-based Memory-efficient Fine-tuning with LoRA Correction

翻译：EMLoC：基于模拟器的内存高效微调与LoRA校正

Hsi-Che Lin,Yu-Chu Yu,Kai-Po Chang,Yu-Chiang Frank Wang

from arxiv, Accepted to the 39th Conference on Neural Information Processing Systems (NeurIPS 2025) Project page: https://hsi-che-lin.github.io/EMLoC/

Open-source foundation models have seen rapid adoption and development, enabling powerful general-purpose capabilities across diverse domains. However, fine-tuning large foundation models for domain-specific or personalized tasks remains prohibitively expensive for most users due to the significant memory overhead beyond that of inference. We introduce EMLoC, an Emulator-based Memory-efficient fine-tuning framework with LoRA Correction, which enables model fine-tuning within the same memory budget required for inference. EMLoC constructs a task-specific light-weight emulator using activation-aware singular value decomposition (SVD) on a small downstream calibration set. Fine-tuning then is performed on this lightweight emulator via LoRA. To tackle the misalignment between the original model and the compressed emulator, we propose a novel compensation algorithm to correct the fine-tuned LoRA module, which thus can be merged into the original model for inference. EMLoC supports flexible compression ratios and standard training pipelines, making it adaptable to a wide range of applications. Extensive experiments demonstrate that EMLoC outperforms other baselines across multiple datasets and modalities. Moreover, without quantization, EMLoC enables fine-tuning of a 38B model, which originally required 95GB of memory, on a single 24GB consumer GPU-bringing efficient and practical model adaptation to individual users.

翻译：开源基础模型已获得快速采用与发展，使其能够在多样化领域中展现出强大的通用能力。然而，针对特定领域或个性化任务对大型基础模型进行微调，由于所需内存开销远超推理阶段，对大多数用户而言仍然成本高昂。我们提出了EMLoC，一种基于模拟器的内存高效微调框架，具备LoRA校正功能，该框架能够在与推理相同的内存预算内实现模型微调。EMLoC利用下游小型校准集，通过激活感知奇异值分解（SVD）构建一个任务特定的轻量级模拟器。随后通过LoRA在此轻量级模拟器上进行微调。为解决原始模型与压缩模拟器之间的不对齐问题，我们提出了一种新颖的补偿算法来校正微调后的LoRA模块，从而使其能够合并到原始模型中以供推理使用。EMLoC支持灵活的压缩比和标准训练流程，使其能够适应广泛的应用场景。大量实验表明，EMLoC在多个数据集和模态上均优于其他基线方法。此外，在不进行量化的前提下，EMLoC使得原本需要95GB内存的380亿参数模型能够在单块24GB消费级GPU上完成微调，从而为个人用户带来了高效且实用的模型适配能力。

0

相关内容

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

16+阅读 · 2025年5月5日

LoRA进展有哪些？最新《基础模型的低秩适应》综述

LoRA进展有哪些？最新《基础模型的低秩适应》综述

专知会员服务

37+阅读 · 2025年1月3日

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

专知会员服务

26+阅读 · 2024年10月17日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

TVM: Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

TVM: Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

极市平台

22+阅读 · 2019年5月3日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

干货｜EM算法原理总结

干货｜EM算法原理总结

全球人工智能

17+阅读 · 2018年1月10日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Layer-wise LoRA fine-tuning: a similarity metric approach

Arxiv

0+阅读 · 2月5日

FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning

Arxiv

0+阅读 · 1月31日

SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips

Arxiv

0+阅读 · 1月28日

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

Arxiv

0+阅读 · 1月27日

PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator

Arxiv

0+阅读 · 1月20日

Neurosymbolic LoRA: Why and When to Tune Weights vs. Rewrite Prompts

Arxiv

0+阅读 · 1月19日

SDFLoRA: Selective Dual-Module LoRA for Federated Fine-tuning with Heterogeneous Clients

Arxiv

0+阅读 · 1月16日

MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

Arxiv

0+阅读 · 1月14日

VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

Arxiv

0+阅读 · 1月12日

Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

奇异值分解

相关VIP内容

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

【ICML2025】SparseLoRA：利用上下文稀疏性加速大语言模型微调

专知会员服务

11+阅读 · 2025年6月23日

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

【ICML2025】用于持续多模态指令微调的动态课程化LoRA专家混合机制

专知会员服务

12+阅读 · 2025年6月17日

联邦学习中基础模型参数高效微调综述

联邦学习中基础模型参数高效微调综述

专知会员服务

16+阅读 · 2025年5月5日

LoRA进展有哪些？最新《基础模型的低秩适应》综述

LoRA进展有哪些？最新《基础模型的低秩适应》综述

专知会员服务

37+阅读 · 2025年1月3日

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

虚幻5加持，清华发布首个「真实开放环境具身智能平台」与基准测试集EmbodiedCity！

专知会员服务

26+阅读 · 2024年10月17日

【ICML 2024】零阶优化器微调大模型，大幅降低内存

【ICML 2024】零阶优化器微调大模型，大幅降低内存

专知会员服务

32+阅读 · 2024年7月8日

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

【ACL2024】DoRA：通过动态秩分布增强参数高效微调

专知会员服务

21+阅读 · 2024年5月28日

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

参数高效微调方法有哪些？岭大等最新《预训练语言模型的参数高效微调》综述，

专知会员服务

70+阅读 · 2023年12月21日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

【WWW2020-中科大】LightRec:一个内存和搜索高效率的推荐系统

专知会员服务

49+阅读 · 2020年3月23日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

【CMU教程】高效大规模机器学习训练，198页PDF带你概览领域前沿进展

专知

14+阅读 · 2019年10月9日

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

MSRA开源基于注意力机制的全新推荐模型，融合用户长短期偏好

AI前线

15+阅读 · 2019年9月22日

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

【泡泡图灵智库】RelocNet：一种通过连续度量学习实现相机重定位的神经网络框架

泡泡机器人SLAM

14+阅读 · 2019年9月5日

TVM: Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

TVM: Deep Learning模型的优化编译器(强烈推荐, 附踩坑记录)

极市平台

22+阅读 · 2019年5月3日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

变分自编码器（Variational Autoencoder, VAE）通俗教程，细节、基础、符号解释很齐全

CreateAMind

12+阅读 · 2018年4月7日

干货｜EM算法原理总结

干货｜EM算法原理总结

全球人工智能

17+阅读 · 2018年1月10日

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

Deep Image Prior：使用随机初始化神经网络实现图片去噪、超分辨率和修补

全球人工智能

12+阅读 · 2017年12月3日

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

基于位置注意力机制模型和带标签数据来提升槽填充（EMNLP outstanding paper）

科技创新与创业

17+阅读 · 2017年11月17日

相关论文

Layer-wise LoRA fine-tuning: a similarity metric approach

Arxiv

0+阅读 · 2月5日

FedLoDrop: Federated LoRA with Dropout for Generalized LLM Fine-tuning

Arxiv

0+阅读 · 1月31日

SuperInfer: SLO-Aware Rotary Scheduling and Memory Management for LLM Inference on Superchips

Arxiv

0+阅读 · 1月28日

TokenSeek: Memory Efficient Fine Tuning via Instance-Aware Token Ditching

Arxiv

0+阅读 · 1月27日

PRIMAL: Processing-In-Memory Based Low-Rank Adaptation for LLM Inference Accelerator

Arxiv

0+阅读 · 1月20日

Neurosymbolic LoRA: Why and When to Tune Weights vs. Rewrite Prompts

Arxiv

0+阅读 · 1月19日

SDFLoRA: Selective Dual-Module LoRA for Federated Fine-tuning with Heterogeneous Clients

Arxiv

0+阅读 · 1月16日

MISA: Memory-Efficient LLMs Optimization with Module-wise Importance Sampling

Arxiv

0+阅读 · 1月14日

VideoLoom: A Video Large Language Model for Joint Spatial-Temporal Understanding

Arxiv

0+阅读 · 1月12日

Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth

Arxiv

0+阅读 · 1月6日

相关基金

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于高精度高效率CFD方法和三通道三回路控制方案的数值虚拟飞行研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于非易失内存设备的数据读写性能优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

“非对称多通道”异质、异构内存系统架构及“启发式”混合内存资源管理机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向高性能异构众核架构的大规模CFD并行算法与应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向云数据中心应用感知的参与式资源调度技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于动态匹配的高能量利用率多层堆叠结构静态随机存储器（SRAM）关键技术

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向类脑计算存储器的调制编码理论及方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

隐写模糊安全性测度及其优化嵌入算法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员