The aim of this article is to introduce two Context-Free Grammars (CFG) for Nawatl Corpora expansion. Nawatl is an Amerindian language (it is a National Language of Mexico) of the $π$-language type, i.e. a language with few digital resources. For this reason the corpora available for the learning of Large Language Models (LLMs) are virtually non-existent, posing a significant challenge. The goal is to produce a substantial number of syntactically valid artificial Nawatl sentences and thereby to expand the corpora for the purpose of learning non contextual embeddings. For this objective, we introduce two new Nawatl CFGs and use them in generative mode. Using these grammars, it is possible to expand Nawatl corpus significantly and subsequently to use it to learn embeddings and to evaluate their relevance in a sentences semantic similarity task. The results show an improvement compared to the results obtained using only the original corpus without artificial expansion, and also demonstrate that economic embeddings often perform better than some LLMs.


翻译:本文旨在介绍两种用于纳瓦特尔语语料库扩展的上下文无关文法(CFG)。纳瓦特尔语是一种美洲原住民语言(墨西哥的国家语言),属于$π$型语言,即数字资源稀少的语言。因此,可用于大型语言模型(LLMs)学习的语料库几乎不存在,构成了重大挑战。目标是生成大量句法有效的纳瓦特尔语人工句子,从而扩展语料库以学习非上下文嵌入。为此,我们引入了两种新的纳瓦特尔语CFG,并以生成模式使用它们。利用这些文法,可以显著扩展纳瓦特尔语语料库,随后用于学习嵌入,并评估其在句子语义相似性任务中的相关性。结果显示,与仅使用未经人工扩展的原始语料库获得的结果相比,性能有所提升,同时也表明经济型嵌入通常优于某些LLMs。

0
下载
关闭预览

相关内容

CLIP通用提示学习的简要概述
专知会员服务
16+阅读 · 2025年3月13日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
88+阅读 · 2024年5月3日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
专知会员服务
113+阅读 · 2021年9月22日
专知会员服务
23+阅读 · 2021年2月6日
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
13+阅读 · 2019年2月28日
VIP会员
相关VIP内容
CLIP通用提示学习的简要概述
专知会员服务
16+阅读 · 2025年3月13日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
RAG与RAU:自然语言处理中的检索增强语言模型综述
专知会员服务
88+阅读 · 2024年5月3日
KnowledGPT:基于知识库的检索和存储访问增强大型语言模型
专知会员服务
113+阅读 · 2021年9月22日
专知会员服务
23+阅读 · 2021年2月6日
相关资讯
ICLR'21 | GNN联邦学习的新基准
图与推荐
12+阅读 · 2021年11月15日
【NeurIPS2019】图变换网络:Graph Transformer Network
基于PyTorch/TorchText的自然语言处理库
专知
28+阅读 · 2019年4月22日
基于Lattice LSTM的命名实体识别
微信AI
48+阅读 · 2018年10月19日
读论文Discriminative Deep Metric Learning for Face and KV
统计学习与视觉计算组
12+阅读 · 2018年4月6日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员