面向低资源语言建模的持续学习：基于大语言模型的实现 (Continual-learning for Modelling Low-Resource Languages from Large Language Models) - 专知论文

会员服务 ·

0

语言模型 · 低资源 · 灾难性遗忘 · 语言建模 · 构建 ·

Continual-learning for Modelling Low-Resource Languages from Large Language Models

翻译：面向低资源语言建模的持续学习：基于大语言模型的实现

Santosh Srinath K,Mudit Somani,Varun Reddy Padala,Prajna Devi Upadhyay,Abhijit Das

Modelling a language model for a multi-lingual scenario includes several potential challenges, among which catastrophic forgetting is the major challenge. For example, small language models (SLM) built for low-resource languages by adapting large language models (LLMs) pose the challenge of catastrophic forgetting. This work proposes to employ a continual learning strategy using parts-of-speech (POS)-based code-switching along with a replay adapter strategy to mitigate the identified gap of catastrophic forgetting while training SLM from LLM. Experiments conducted on vision language tasks such as visual question answering and language modelling task exhibits the success of the proposed architecture.

翻译：在多语言场景下构建语言模型面临若干潜在挑战，其中灾难性遗忘是主要难题。例如，通过适配大语言模型（LLM）为低资源语言构建的小语言模型（SLM）便存在灾难性遗忘的挑战。本研究提出采用基于词性（POS）的语码转换与回放适配器相结合的持续学习策略，以缓解在利用LLM训练SLM时存在的灾难性遗忘问题。在视觉问答等视觉语言任务及语言建模任务上的实验表明，所提出的架构取得了成功。

0

相关内容

语言模型

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

38+阅读 · 2025年5月15日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

大语言模型增强知识表示学习综述

大语言模型增强知识表示学习综述

专知会员服务

69+阅读 · 2024年7月2日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

基础语言模型在持续学习中的最新进展：综述

基础语言模型在持续学习中的最新进展：综述

专知会员服务

35+阅读 · 2024年6月9日

《大型语言模型持续学习》综述

《大型语言模型持续学习》综述

专知会员服务

93+阅读 · 2024年4月26日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models

Arxiv

0+阅读 · 2月4日

Large Multimodal Models for Low-Resource Languages: A Survey

Arxiv

0+阅读 · 2月2日

Large Multimodal Models for Low-Resource Languages: A Survey

Arxiv

0+阅读 · 1月27日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Orthogonal Low-rank Adaptation in Lie Groups for Continual Learning of Large Language Models

Arxiv

0+阅读 · 1月23日

Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish

Arxiv

0+阅读 · 1月15日

Multimodal In-context Learning for ASR of Low-resource Languages

Arxiv

0+阅读 · 1月9日

ELLA: Efficient Lifelong Learning for Adapters in Large Language Models

Arxiv

0+阅读 · 1月5日

Opportunities and Challenges of Large Language Models for Low-Resource Languages in Humanities Research

Arxiv

0+阅读 · 1月5日

Large Multimodal Models for Low-Resource Languages: A Survey

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

灾难性遗忘

相关VIP内容

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

面向性能、成本效益、云边隐私与可信性的大小语言模型协作综述

专知会员服务

15+阅读 · 2025年10月18日

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

面向视觉语言模型的持续学习：遗忘之外的综述与分类体系

专知会员服务

21+阅读 · 2025年8月9日

赋能大型语言模型多领域资源挑战

赋能大型语言模型多领域资源挑战

专知会员服务

10+阅读 · 2025年6月10日

大语言模型与小语言模型协同机制综述

大语言模型与小语言模型协同机制综述

专知会员服务

38+阅读 · 2025年5月15日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

大语言模型增强知识表示学习综述

大语言模型增强知识表示学习综述

专知会员服务

69+阅读 · 2024年7月2日

大语言模型的终身学习综述

大语言模型的终身学习综述

专知会员服务

75+阅读 · 2024年6月15日

基础语言模型在持续学习中的最新进展：综述

基础语言模型在持续学习中的最新进展：综述

专知会员服务

35+阅读 · 2024年6月9日

《大型语言模型持续学习》综述

《大型语言模型持续学习》综述

专知会员服务

93+阅读 · 2024年4月26日

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

如何提升大模型效率？微软等最新《大型语言模型的效率算法》综述

专知会员服务

46+阅读 · 2023年12月5日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【Uber AI新论文】持续元学习，Learning to Continually Learn

【Uber AI新论文】持续元学习，Learning to Continually Learn

专知

19+阅读 · 2020年2月27日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

Sparse Subnetwork Enhancement for Underrepresented Languages in Large Language Models

Arxiv

0+阅读 · 2月4日

Large Multimodal Models for Low-Resource Languages: A Survey

Arxiv

0+阅读 · 2月2日

Large Multimodal Models for Low-Resource Languages: A Survey

Arxiv

0+阅读 · 1月27日

Mechanistic Analysis of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning

Arxiv

0+阅读 · 1月26日

Orthogonal Low-rank Adaptation in Lie Groups for Continual Learning of Large Language Models

Arxiv

0+阅读 · 1月23日

Testing Low-Resource Language Support in LLMs Using Language Proficiency Exams: the Case of Luxembourgish

Arxiv

0+阅读 · 1月15日

Multimodal In-context Learning for ASR of Low-resource Languages

Arxiv

0+阅读 · 1月9日

ELLA: Efficient Lifelong Learning for Adapters in Large Language Models

Arxiv

0+阅读 · 1月5日

Opportunities and Challenges of Large Language Models for Low-Resource Languages in Humanities Research

Arxiv

0+阅读 · 1月5日

Large Multimodal Models for Low-Resource Languages: A Survey

Arxiv

0+阅读 · 2025年12月31日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

42+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

基于生态演替的文本大数据特征学习研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

31+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向大规模数据流的集成学习模型与方法研究

国家自然科学基金

5+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

语音识别中的稀疏性深度学习

国家自然科学基金

11+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员