Large Language Models (LLMs) are becoming increasingly multilingual, supporting hundreds of languages, especially high resource ones. Unfortunately, Dialect variations are still underrepresented due to limited data and linguistic variation. In this work, we adapt a pre-trained LLM to improve dialectal performance. Specifically, we use Low Rank Adaptation (LoRA) fine-tuning on monolingual and English Dialect parallel data, adapter merging and dialect-aware MBR decoding to improve dialectal fidelity generation and translation. Experiments on Syrian, Moroccan, and Saudi Arabic show that merging and MBR improve dialectal fidelity while preserving semantic accuracy. This combination provides a compact and effective framework for robust dialectal Arabic generation.


翻译:大语言模型正日益趋向多语言化,已能支持数百种语言,尤其是高资源语言。然而,由于数据稀缺和语言变体复杂性,方言变体在模型中仍未能得到充分表征。本研究通过适配预训练大语言模型以提升其方言处理性能。具体而言,我们采用低秩自适应技术对单语及英语-方言平行数据进行微调,结合适配器融合与方言感知最小贝叶斯风险解码策略,以提升方言忠实度生成与翻译质量。在叙利亚、摩洛哥及沙特阿拉伯方言上的实验表明,融合方法与最小贝叶斯风险解码能在保持语义准确性的同时显著提升方言忠实度。该组合方案为构建鲁棒的阿拉伯语方言生成系统提供了一个紧凑而有效的框架。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关VIP内容
大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
赋能大型语言模型多领域资源挑战
专知会员服务
10+阅读 · 2025年6月10日
大语言模型评估技术研究进展
专知会员服务
48+阅读 · 2024年7月9日
一文速览大语言模型提示最新进展
专知会员服务
80+阅读 · 2023年12月24日
大型语言模型:原理、实现与发展
专知会员服务
102+阅读 · 2023年11月28日
多语言语音识别声学模型建模方法最新进展
专知会员服务
36+阅读 · 2022年2月7日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员