Korean is often referred to as a low-resource language in the research community. While this claim is partially true, it is also because the availability of resources is inadequately advertised and curated. This work curates and reviews a list of Korean corpora, first describing institution-level resource development, then further iterate through a list of current open datasets for different types of tasks. We then propose a direction on how open-source dataset construction and releases should be done for less-resourced languages to promote research.


翻译:在学术界,韩国语常被称为低资源语言。虽然这种说法部分属实,但部分原因在于资源的可用性未能得到充分宣传和系统整理。本研究整理并评述了韩国语语料库清单,首先描述机构层面的资源开发,进而系统梳理当前针对不同任务类型的开放数据集。我们进一步提出面向资源稀缺语言的开源数据集构建与发布方向,以促进相关领域的研究发展。

0
下载
关闭预览

相关内容

大韩民国(简称韩国)面积 9.96 万平方公里,人口约 5000 万。

韩国是 OECD 成员国,GDP 总量居世界第 11 位,人均 GDP 超过 2 万美元,世界银行、国际货币基金组织和美国中央情报局《世界概况》均将韩国列为发达国家。

韩国政治实行三权分立。最高司法机构为大法院。韩国国会是韩国的一院制立法机关,通过单一选区制和比例代表制结合的方法选举,每届任期为 4 年。韩国总统由国民直选产生,拥有最高行政权,任期 5 年,不得连任。

零训练开放词汇语义分割综述
专知会员服务
11+阅读 · 2025年5月31日
专知会员服务
27+阅读 · 2021年10月12日
最新《低资源自然语言处理》综述论文,21页pdf
专知会员服务
61+阅读 · 2020年10月27日
【清华大学】低资源语言:回顾综述和未来的挑战,14页pdf
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月9日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
4+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
千万级中文公开免费聊天语料数据分享
深度学习与NLP
17+阅读 · 2019年3月17日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
NLP Chinese Corpus:大规模中文自然语言处理语料
PaperWeekly
14+阅读 · 2019年2月18日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
语音识别之--韩语语音识别
微信AI
16+阅读 · 2017年8月2日
相关基金
国家自然科学基金
4+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员