We present the Multilingual Cloud Corpus, the first national-scale, parallel, multimodal linguistic dataset of Bangladesh's ethnic and indigenous languages. Despite being home to approximately 40 minority languages spanning four language families, Bangladesh has lacked a systematic, cross-family digital corpus for these predominantly oral, computationally "zero resource" varieties, 14 of which are classified as endangered. Our corpus comprises 85792 structured textual entries, each containing a Bengali stimulus text, an English translation, and an IPA transcription, together with approximately 107 hours of transcribed audio recordings, covering 42 language varieties from the Tibeto-Burman, Indo-European, Austro-Asiatic, and Dravidian families, plus two genetically unclassified languages. The data were collected through systematic fieldwork over 90 days across nine districts of Bangladesh, involving 16 data collectors, 77 speakers, and 43 validators, following a predefined elicitation template of 2224 unique items organized at three levels of linguistic granularity: isolated lexical items (475 words across 22 semantic domains), grammatical constructions (887 sentences across 21 categories including verbal conjugation paradigms), and directed speech (862 prompts across 46 conversational scenarios). Post-field processing included IPA transcription by 10 linguists with independent adjudication by 6 reviewers. The complete dataset is publicly accessible through the Multilingual Cloud platform (multiling.cloud), providing searchable access to annotated audio and textual data for all documented varieties. We describe the corpus design, fieldwork methodology, dataset structure, and per-language coverage, and discuss implications for endangered language documentation, low-resource NLP, and digital preservation in linguistically diverse developing countries.


翻译:本文介绍多语言云语料库,这是首个国家级、平行、多模态的孟加拉国少数民族与土著语言数据集。尽管孟加拉国拥有约40种跨越四大语系的少数民族语言,但针对这些以口语为主、在计算语言学中被视为"零资源"的语言变体(其中14种被列为濒危语言),该国一直缺乏系统性的跨语系数字语料库。本语料库包含85792条结构化文本条目,每条条目包含孟加拉语刺激文本、英语翻译和国际音标转写,同时配有约107小时的转录音频记录,涵盖藏缅语系、印欧语系、南亚语系和达罗毗荼语系的42种语言变体,以及两种谱系未分类语言。数据通过为期90天的系统性田野调查收集,覆盖孟加拉国九个行政区,动员了16名数据采集员、77名发音人和43名验证员,采用包含2224个独立项目的预定义诱发模板,该模板按三个语言粒度层级组织:孤立词汇项(22个语义域的475个词汇)、语法结构(21个类别共887个句子,包括动词变位范式)和引导性话语(46个会话场景的862个提示项)。田野调查后处理包括10名语言学家的国际音标转写工作,并由6名评审员进行独立裁定。完整数据集通过多语言云平台(multiling.cloud)公开提供,为所有记录的语言变体提供可检索的标注音频与文本数据访问。本文详述语料库设计、田野调查方法、数据集结构及各语言覆盖范围,并探讨其对濒危语言记录、低资源自然语言处理以及语言多样化发展中国家数字保存的启示意义。

0
下载
关闭预览

相关内容

《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
4+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
4+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
4+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
14+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
《多语言大型语言模型:系统综述》
专知会员服务
50+阅读 · 2024年11月21日
【CMU博士论文】语言理解与生成优化技术,145页pdf
专知会员服务
36+阅读 · 2023年11月22日
相关资讯
自然语言生成资源列表
专知
17+阅读 · 2020年1月4日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员