Code-switching (CSW), the alternation of languages and scripts within a single utterance, remains a fundamental challenge for multilingual NLP, even amidst the rapid advances of large language models (LLMs). Amidst the rapid advances of large language models (LLMs), most LLMs still struggle with mixed-language inputs, limited Codeswitching (CSW) datasets, and evaluation biases, which hinder their deployment in multilingual societies. This survey provides the first comprehensive analysis of CSW-aware LLM research, reviewing 327 studies spanning five research areas, 15+ NLP tasks, 30+ datasets, and 80+ languages. We categorize recent advances by architecture, training strategy, and evaluation methodology, outlining how LLMs have reshaped CSW modeling and identifying the challenges that persist. The paper concludes with a roadmap that emphasizes the need for inclusive datasets, fair evaluation, and linguistically grounded models to achieve truly multilingual capabilities https://github.com/lingo-iitgn/awesome-code-mixing/.


翻译:语码转换(CSW),即在单个话语中交替使用不同语言和文字,即使在大型语言模型(LLM)快速发展的背景下,它仍然是多语言自然语言处理面临的一项根本性挑战。在大型语言模型(LLM)快速发展的浪潮中,大多数LLM在处理混合语言输入时仍面临困难,同时受限于语码转换(CSW)数据集的匮乏以及评估偏差,这阻碍了其在多语言社会中的部署。本综述首次对CSW相关的LLM研究进行了全面分析,回顾了涵盖五个研究领域、15种以上NLP任务、30多个数据集以及80多种语言的327项研究。我们依据架构、训练策略和评估方法对最新进展进行了分类,概述了LLM如何重塑CSW建模,并指出了持续存在的挑战。本文最后提出了一份路线图,强调需要构建包容性数据集、建立公平评估体系以及发展基于语言学的模型,以实现真正的多语言能力 https://github.com/lingo-iitgn/awesome-code-mixing/。

0
下载
关闭预览

相关内容

音退化问题:基于输入操控的鲁棒语音转换综述
专知会员服务
6+阅读 · 2025年12月20日
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
22+阅读 · 2022年1月5日
【NeurIPS2019】图变换网络:Graph Transformer Network
Shreya Gherani:BERT庖丁解牛(Neo Yan翻译)
CreateAMind
10+阅读 · 2019年8月10日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员