Low-resource languages pose persistent challenges for Natural Language Processing tasks such as lemmatization and part-of-speech (POS) tagging. This paper investigates the capacity of recent large language models (LLMs), including GPT-4 variants and open-weight Mistral models, to address these tasks in few-shot and zero-shot settings for four historically and linguistically diverse under-resourced languages: Ancient Greek, Classical Armenian, Old Georgian, and Syriac. Using a novel benchmark comprising aligned training and out-of-domain test corpora, we evaluate the performance of foundation models across lemmatization and POS-tagging, and compare them with PIE, a task-specific RNN baseline. Our results demonstrate that LLMs, even without fine-tuning, achieve competitive or superior performance in POS-tagging and lemmatization across most languages in few-shot settings. Significant challenges persist for languages characterized by complex morphology and non-Latin scripts, but we demonstrate that LLMs are a credible and relevant option for initiating linguistic annotation tasks in the absence of data, serving as an effective aid for annotation.


翻译:低资源语言在词形还原和词性标注等自然语言处理任务中持续面临挑战。本文研究了包括GPT-4变体和开源权重的Mistral模型在内的大型语言模型,在少样本和零样本设置下处理四种历史与语言多样性显著的低资源语言——古希腊语、古典亚美尼亚语、古格鲁吉亚语和叙利亚语——相关任务的能力。通过构建包含对齐训练集与跨领域测试集的新型基准,我们评估了基础模型在词形还原和词性标注任务上的表现,并将其与任务特定的RNN基线模型PIE进行对比。实验结果表明,即使未经微调,LLM在少样本设置下对多数语言的词性标注和词形还原任务均能达到竞争性乃至更优的性能。对于形态复杂且使用非拉丁文字的语言仍存在显著挑战,但我们证明LLM在缺乏数据的情况下可作为启动语言标注任务的可靠且有效的选择,成为标注工作的有力辅助工具。

0
下载
关闭预览

相关内容

赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
LLM 时代小模型的应用潜力与挑战 ,50页pdf
专知会员服务
37+阅读 · 2025年2月25日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
85+阅读 · 2024年6月28日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
Nat. Mach. Intell. | 探索语言模型的缺点
专知会员服务
36+阅读 · 2023年10月13日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
自然语言处理数据集免费资源开放(附学习资料)
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
LLM 时代小模型的应用潜力与挑战 ,50页pdf
专知会员服务
37+阅读 · 2025年2月25日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
《大型语言模型 (LLM) 对比研究》美海军最新报告
专知会员服务
85+阅读 · 2024年6月28日
多语言大型语言模型:资源、分类和前沿综述
专知会员服务
53+阅读 · 2024年4月9日
Nat. Mach. Intell. | 探索语言模型的缺点
专知会员服务
36+阅读 · 2023年10月13日
稀缺资源语言神经网络机器翻译研究综述
专知会员服务
27+阅读 · 2020年12月2日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
一份超全的NLP语料资源集合及其构建现状
七月在线实验室
33+阅读 · 2019年1月16日
自然语言处理数据集免费资源开放(附学习资料)
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员