We present Kakugo, a novel and cost-effective pipeline designed to train general-purpose Small Language Models (SLMs) for low-resource languages using only the language name as input. By using a large teacher model to generate synthetic prompts and translate instruction datasets, we produced training data and SLMs for 54 low-resource languages. Evaluations across a diverse set of general natural language processing tasks, including translation, classification, and question answering, demonstrate that our pipeline consistently improves performance over base models. With a total generation and training cost of under $50 per language, Kakugo offers an accessible method for communities to develop language-specific AI.


翻译:本文提出Kakugo——一种新颖且经济高效的训练流程,仅需以语言名称作为输入,即可为低资源语言训练通用型小型语言模型(SLMs)。通过使用大型教师模型生成合成提示词并翻译指令数据集,我们为54种低资源语言生成了训练数据并训练出相应SLMs。在涵盖翻译、分类、问答等多样化通用自然语言处理任务上的评估表明,该流程能持续提升基础模型的性能。每种语言的总生成与训练成本低于50美元,Kakugo为各语言社区开发特定语言AI提供了可行路径。

0
下载
关闭预览

相关内容

【CMU博士论文】大型语言模型的隐性特性
专知会员服务
15+阅读 · 2025年10月18日
大语言模型与小语言模型协同机制综述
专知会员服务
38+阅读 · 2025年5月15日
《口语语言模型研究现状:一项全面综述》
专知会员服务
16+阅读 · 2025年4月14日
小型语言模型综述
专知会员服务
54+阅读 · 2024年10月29日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
专知会员服务
27+阅读 · 2021年10月12日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
VIP会员
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
11+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员