大型语言模型宇宙中的隐形语言 (Invisible Languages of the LLM Universe) - 专知论文

会员服务 ·

0

系统 · 分析 · 结构 · 语言模型 · 大语言模型 ·

2025 年 12 月 30 日

Invisible Languages of the LLM Universe

翻译：大型语言模型宇宙中的隐形语言

Saurabh Khanna,Xinxu Li

Large Language Models are trained on massive multilingual corpora, yet this abundance masks a profound crisis: of the world's 7,613 living languages, approximately 2,000 languages with millions of speakers remain effectively invisible in digital ecosystems. We propose a critical framework connecting empirical measurements of language vitality (real world demographic strength) and digitality (online presence) with postcolonial theory and epistemic injustice to explain why linguistic inequality in AI systems is not incidental but structural. Analyzing data across all documented human languages, we identify four categories: Strongholds (33%, high vitality and digitality), Digital Echoes (6%, high digitality despite declining vitality), Fading Voices (36%, low on both dimensions), and critically, Invisible Giants (27%, high vitality but near-zero digitality) - languages spoken by millions yet absent from the LLM universe. We demonstrate that these patterns reflect continuities from colonial-era linguistic hierarchies to contemporary AI development, constituting digital epistemic injustice. Our analysis reveals that English dominance in AI is not a technical necessity but an artifact of power structures that systematically exclude marginalized linguistic knowledge. We conclude with implications for decolonizing language technology and democratizing access to AI benefits.

翻译：大型语言模型在海量多语种语料库上进行训练，然而这种丰富性掩盖了深刻的危机：在全球现存的7,613种语言中，约有2,000种拥有数百万使用者的语言在数字生态系统中实际上处于隐形状态。我们提出了一个批判性分析框架，将语言活力（现实世界人口强度）与数字存在度（在线呈现）的实证测量，同后殖民理论与认知不公相结合，以阐释人工智能系统中的语言不平等并非偶然现象，而是结构性产物。通过分析所有已记录人类语言的数据，我们识别出四大类别：强势语言（33%，高活力与高数字存在度）、数字回响（6%，尽管活力衰退但数字存在度高）、消逝之声（36%，两个维度均偏低），以及关键性的隐形巨人（27%，高活力但数字存在度近乎为零）——即那些被数百万人使用却在大型语言模型宇宙中缺席的语言。我们证明这些模式反映了从殖民时代的语言等级体系到当代人工智能发展的连续性，构成了数字认知不公。我们的分析揭示，英语在人工智能领域的支配地位并非技术必然性，而是权力结构的产物，这种结构系统性地排挤了边缘化的语言知识。最后，我们探讨了语言技术去殖民化及人工智能惠益民主化的相关启示。

0

相关内容

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

专知会员服务

94+阅读 · 2025年1月19日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

重磅！《大语言模型》新书出炉，人大出版，391页pdf

重磅！《大语言模型》新书出炉，人大出版，391页pdf

专知会员服务

201+阅读 · 2024年4月15日

大型语言模型被称为太空部队的 “游戏规则改变器”

大型语言模型被称为太空部队的 “游戏规则改变器”

专知会员服务

33+阅读 · 2023年12月15日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

36+阅读 · 2023年2月15日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知会员服务

86+阅读 · 2022年10月29日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

面向多主体的应急预案体系语义模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages

Arxiv

0+阅读 · 2月2日

Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial

Arxiv

0+阅读 · 1月30日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

UrduLM: A Resource-Efficient Monolingual Urdu Language Model

Arxiv

0+阅读 · 1月25日

Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC)

Arxiv

0+阅读 · 1月21日

Guardrails for trust, safety, and ethical development and deployment of Large Language Models (LLM)

Arxiv

0+阅读 · 1月16日

Language of Thought Shapes Output Diversity in Large Language Models

Arxiv

0+阅读 · 1月16日

Large language models can effectively convince people to believe conspiracies

Arxiv

0+阅读 · 1月9日

Beyond the Black Box: Theory and Mechanism of Large Language Models

Arxiv

2+阅读 · 1月6日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

499+阅读 · 2023年3月31日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

【CMU博士论文】大型语言模型的隐性特性

【CMU博士论文】大型语言模型的隐性特性

专知会员服务

15+阅读 · 2025年10月18日

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

231页pdf大模型新书！《大型语言模型基础》东北大学NLP实验室出品

专知会员服务

94+阅读 · 2025年1月19日

大型语言模型（LLMs），附Slides与视频

大型语言模型（LLMs），附Slides与视频

专知会员服务

70+阅读 · 2024年6月30日

重磅！《大语言模型》新书出炉，人大出版，391页pdf

重磅！《大语言模型》新书出炉，人大出版，391页pdf

专知会员服务

201+阅读 · 2024年4月15日

大型语言模型被称为太空部队的 “游戏规则改变器”

大型语言模型被称为太空部队的 “游戏规则改变器”

专知会员服务

33+阅读 · 2023年12月15日

大型语言模型：原理、实现与发展

大型语言模型：原理、实现与发展

专知会员服务

102+阅读 · 2023年11月28日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

157+阅读 · 2023年8月8日

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

首个中文版大语言模型综述来了！人大发布60页《大语言模型综述》中文版，详述大模型技术细节

专知会员服务

264+阅读 · 2023年8月4日

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

【CMU博士论文】多语言视觉-语言模型研究，190页pdf

专知会员服务

36+阅读 · 2023年2月15日

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

《大语言模型进展》69页ppt，谷歌研究科学家Jason Wei

专知会员服务

86+阅读 · 2022年10月29日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

Facebook 自然语言处理新突破：新模型能力赶超人类 & 超难 NLP 新基准

AI科技评论

10+阅读 · 2019年9月17日

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

AI100

14+阅读 · 2019年6月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

Natural 自然语言处理（NLP）「全解析」

Natural 自然语言处理（NLP）「全解析」

人工智能学家

14+阅读 · 2017年9月23日

相关论文

Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages

Arxiv

0+阅读 · 2月2日

Should LLMs, $\textit{like}$, Generate How Users Talk? Building Dialect-Accurate Dialog[ue]s Beyond the American Default with MDial

Arxiv

0+阅读 · 1月30日

A Survey of LLM Alignment: Instruction Understanding, Intention Reasoning, and Reliable Generation

Arxiv

0+阅读 · 1月29日

UrduLM: A Resource-Efficient Monolingual Urdu Language Model

Arxiv

0+阅读 · 1月25日

Beyond Prompting: Efficient and Robust Contextual Biasing for Speech LLMs via Logit-Space Integration (LOGIC)

Arxiv

0+阅读 · 1月21日

Guardrails for trust, safety, and ethical development and deployment of Large Language Models (LLM)

Arxiv

0+阅读 · 1月16日

Language of Thought Shapes Output Diversity in Large Language Models

Arxiv

0+阅读 · 1月16日

Large language models can effectively convince people to believe conspiracies

Arxiv

0+阅读 · 1月9日

Beyond the Black Box: Theory and Mechanism of Large Language Models

Arxiv

2+阅读 · 1月6日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

499+阅读 · 2023年3月31日

相关基金

面向多主体的应急预案体系语义模型研究

国家自然科学基金

1+阅读 · 2015年12月31日

即时通信中的隐蔽通信模型及方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

面向聋儿言语康复的多模态人机交互模型及技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

共现潜在语义向量空间模型及其语义核的构建与应用研究

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

多语言大数据环境下的复杂网络行为分析、预测和干预

国家自然科学基金

4+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员