Code-switching (CSW), the alternation of languages and scripts within a single utterance, remains a fundamental challenge for multilingual NLP, even amidst the rapid advances of large language models (LLMs). Amidst the rapid advances of large language models (LLMs), most LLMs still struggle with mixed-language inputs, limited Codeswitching (CSW) datasets, and evaluation biases, which hinder their deployment in multilingual societies. This survey provides the first comprehensive analysis of CSW-aware LLM research, reviewing 327 studies spanning five research areas, 15+ NLP tasks, 30+ datasets, and 80+ languages. We categorize recent advances by architecture, training strategy, and evaluation methodology, outlining how LLMs have reshaped CSW modeling and identifying the challenges that persist. The paper concludes with a roadmap that emphasizes the need for inclusive datasets, fair evaluation, and linguistically grounded models to achieve truly multilingual capabilities https://github.com/lingo-iitgn/awesome-code-mixing/.


翻译:语码转换(CSW),即在单个话语中交替使用不同语言和文字,即使在大型语言模型(LLM)快速发展的背景下,它仍然是多语言自然语言处理面临的一项根本性挑战。在大型语言模型(LLM)快速发展的浪潮中,大多数LLM在处理混合语言输入时仍面临困难,同时受限于语码转换(CSW)数据集的匮乏以及评估偏差,这阻碍了其在多语言社会中的部署。本综述首次对CSW相关的LLM研究进行了全面分析,回顾了涵盖五个研究领域、15种以上NLP任务、30多个数据集以及80多种语言的327项研究。我们依据架构、训练策略和评估方法对最新进展进行了分类,概述了LLM如何重塑CSW建模,并指出了持续存在的挑战。本文最后提出了一份路线图,强调需要构建包容性数据集、建立公平评估体系以及发展基于语言学的模型,以实现真正的多语言能力 https://github.com/lingo-iitgn/awesome-code-mixing/。

0
下载
关闭预览

相关内容

多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
大型语言模型遇上自然语言处理:综述
专知会员服务
38+阅读 · 2024年5月23日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
NLP圣经《自然语言处理综述》2018最新版推荐
深度学习与NLP
16+阅读 · 2018年9月26日
从语言学到深度学习NLP,一文概述自然语言处理
人工智能学家
13+阅读 · 2018年1月28日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
多模态大语言模型的自我改进:综述
专知会员服务
25+阅读 · 2025年10月8日
多模态大型语言模型:综述
专知会员服务
45+阅读 · 2025年6月14日
《语音大语言模型》最新进展综述
专知会员服务
57+阅读 · 2024年10月8日
《大型语言模型代码生成》综述
专知会员服务
68+阅读 · 2024年6月4日
大型语言模型遇上自然语言处理:综述
专知会员服务
38+阅读 · 2024年5月23日
《多模态大型语言模型》最新进展,详述26种现有MM-LLMs
专知会员服务
65+阅读 · 2024年1月25日
大语言模型简明指南
专知会员服务
143+阅读 · 2023年7月29日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员