The success of large language models (LLMs), like GPT-3 and ChatGPT, has led to the development of numerous cost-effective and accessible alternatives that are created by fine-tuning open-access LLMs with task-specific data (e.g., ChatDoctor) or instruction data (e.g., Alpaca). Among the various fine-tuning methods, adapter-based parameter-efficient fine-tuning (PEFT) is undoubtedly one of the most attractive topics, as it only requires fine-tuning a few external parameters instead of the entire LLMs while achieving comparable or even better performance. To enable further research on PEFT methods of LLMs, this paper presents LLM-Adapters, an easy-to-use framework that integrates various adapters into LLMs and can execute these adapter-based PEFT methods of LLMs for different tasks. The framework includes state-of-the-art open-access LLMs such as LLaMA, BLOOM, OPT, and GPT-J, as well as widely used adapters such as Series adapter, Parallel adapter, and LoRA. The framework is designed to be research-friendly, efficient, modular, and extendable, allowing the integration of new adapters and the evaluation of them with new and larger-scale LLMs. Furthermore, to evaluate the effectiveness of adapters in LLMs-Adapters, we conduct experiments on six math reasoning datasets. The results demonstrate that using adapter-based PEFT in smaller-scale LLMs (7B) with few extra trainable parameters yields comparable, and in some cases superior, performance to that of powerful LLMs (175B) in zero-shot inference on simple math reasoning datasets. Overall, we provide a promising framework for fine-tuning large LLMs on downstream tasks. We believe the proposed LLMs-Adapters will advance adapter-based PEFT research, facilitate the deployment of research pipelines, and enable practical applications to real-world systems.


翻译:大型语言模型(如GPT-3和ChatGPT)的成功催生了众多经济高效且易于使用的替代方案,这些方案通过对开放访问的大型语言模型进行微调而创建,使用的数据包括特定任务数据(如ChatDoctor)或指令数据(如Alpaca)。在各种微调方法中,基于适配器的参数高效微调无疑是最受关注的话题之一,因为它只需微调少量外部参数而非整个模型,就能达到甚至超越全模型微调的性能。为了推动大型语言模型参数高效微调方法的进一步研究,本文提出LLM-适配器——一个易于使用的框架,可将多种适配器集成到大型语言模型中,并针对不同任务执行这些基于适配器的参数高效微调方法。该框架包含最先进的开放访问大型语言模型(如LLaMA、BLOOM、OPT和GPT-J)以及广泛使用的适配器(如串行适配器、并行适配器和LoRA)。框架设计注重研究友好性、高效性、模块化和可扩展性,支持新适配器的集成及其在新的大型语言模型上的评估。此外,为评估LLM-适配器中适配器的有效性,我们在六个数学推理数据集上进行了实验。结果表明,在较小规模(7B)的大型语言模型上使用基于适配器的参数高效微调,仅需少量额外可训练参数,即可在简单数学推理数据集的零样本推理中达到与强大模型(175B)相当甚至更优的性能。总体而言,我们为微调大型语言模型以完成下游任务提供了一个有前景的框架。我们相信,所提出的LLM-适配器将推动基于适配器的参数高效微调研究,促进研究管道的部署,并使其能够应用于实际系统中的具体任务。

0
下载
关闭预览

相关内容

PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
打开模型Zero-Shot新范式:Instruction Tuning
PaperWeekly
2+阅读 · 2022年8月25日
Ladder Side-Tuning:预训练模型的“过墙梯”
PaperWeekly
0+阅读 · 2022年6月24日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Arxiv
1+阅读 · 2023年5月23日
VIP会员
最新内容
AgentOps综述:智能体系统运维框架
专知会员服务
0+阅读 · 今天15:30
《美陆军最新条令:兵力防护》
专知会员服务
1+阅读 · 今天14:43
《人工智能的挑战:算法战的想象与现实》
专知会员服务
1+阅读 · 今天14:26
首场人工智能战争:Maven如何重塑武装冲突
专知会员服务
2+阅读 · 今天14:12
《通往人工通用智能之路上的均衡策略》
专知会员服务
7+阅读 · 6月3日
《Palantir的科技生态系统》
专知会员服务
17+阅读 · 6月2日
相关VIP内容
PubMed GPT : 用于生物医学文本的特定领域大型语言模型
专知会员服务
38+阅读 · 2022年12月19日
预训练语言模型fine-tuning近期进展概述
专知会员服务
40+阅读 · 2021年4月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员