More than 80% of the 1.6 billion English speakers do not use Standard American English (SAE) and experience higher failure rates and stereotyped responses when interacting with LLMs as a result. Yet multi-dialectal performance remains underexplored. We introduce $\textbf{MDial}$, the first large-scale framework for generating multi-dialectal conversational data encompassing the three pillars of written dialect -- lexical (vocabulary), orthographic (spelling), and morphosyntactic (grammar) features -- for nine English dialects. Partnering with native linguists, we design an annotated and scalable rule-based LLM transformation to ensure precision. Our approach challenges the assumption that models should mirror users' morphosyntactic features, showing that up to 90% of the grammatical features of a dialect should not be reproduced by models. Independent evaluations confirm data quality, with annotators preferring MDial outputs over prior methods in 98% of pairwise comparisons for dialect naturalness. Using this pipeline, we construct the dialect-parallel $\textbf{MDialBench}$mark with 50k+ dialogs, resulting in 97k+ QA pairs, and evaluate 17 LLMs on dialect identification and response generation tasks. Even frontier models achieve under 70% accuracy, fail to reach 50% for Canadian English, and systematically misclassify non-SAE dialects as American or British. As dialect identification underpins natural language understanding, these errors risk cascading failures into downstream tasks.


翻译:全球16亿英语使用者中超过80%并不使用标准美国英语,这导致他们在与大语言模型交互时面临更高的失败率和刻板化回应。然而多方言性能研究仍显不足。本文提出首个大规模多方言对话数据生成框架$\textbf{MDial}$,涵盖九种英语方言书面表达的三大支柱特征——词汇、拼写与形态句法。通过与母语语言学家合作,我们设计了可扩展的基于规则的标注化大语言模型转换机制以确保精度。我们的方法挑战了模型应复现用户形态句法特征的固有认知,实证表明方言中高达90%的语法特征不应被模型复制。独立评估证实了数据质量:在98%的成对比较中,标注者认为MDial输出在方言自然度上优于现有方法。基于此流程,我们构建了包含5万+对话(形成9.7万+问答对)的方言平行语料库$\textbf{MDialBench}$mark,并评估了17个大语言模型在方言识别与响应生成任务上的表现。即使前沿模型的准确率仍低于70%,对加拿大英语的识别率未达50%,且系统性地将非标准美国英语方言误判为美式或英式英语。由于方言识别是自然语言理解的基础,这些错误可能导致下游任务产生连锁性失效。

0
下载
关闭预览

相关内容

大语言模型基准综述
专知会员服务
25+阅读 · 2025年8月22日
《使用生成式大语言模型进行多语言事件提取》最新85页
《多语言大型语言模型:系统综述》
专知会员服务
49+阅读 · 2024年11月21日
大型语言模型(LLMs),附Slides与视频
专知会员服务
70+阅读 · 2024年6月30日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
【CMU博士论文】多语言视觉-语言模型研究,190页pdf
专知会员服务
36+阅读 · 2023年2月15日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
对话系统近期进展
专知
37+阅读 · 2019年3月23日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员