Despite the recent advancements of attention-based deep learning architectures across a majority of Natural Language Processing tasks, their application remains limited in a low-resource setting because of a lack of pre-trained models for such languages. In this study, we make the first attempt to investigate the challenges of adapting these techniques for an extremely low-resource language -- Sumerian cuneiform -- one of the world's oldest written languages attested from at least the beginning of the 3rd millennium BC. Specifically, we introduce the first cross-lingual information extraction pipeline for Sumerian, which includes part-of-speech tagging, named entity recognition, and machine translation. We further curate InterpretLR, an interpretability toolkit for low-resource NLP, and use it alongside human attributions to make sense of the models. We emphasize on human evaluations to gauge all our techniques. Notably, most components of our pipeline can be generalised to any other language to obtain an interpretable execution of the techniques, especially in a low-resource setting. We publicly release all software, model checkpoints, and a novel dataset with domain-specific pre-processing to promote further research.


翻译:尽管在大多数自然语言处理任务中,基于关注的深层次学习结构最近有所进展,但由于缺少这类语言的预培训模式,在低资源环境中应用这些结构仍然有限。在本研究中,我们第一次尝试调查如何将这些技术改造为一种极低资源语言 -- -- 苏美尔语库 -- -- 世界上最古老的书面语言之一 -- -- 至少从公元前三千年开始就已经证明。具体地说,我们为苏美尔语引入了第一个跨语言信息提取管道,其中包括部分语音标记、名称实体识别和机器翻译。我们进一步翻译了低资源国家语言方案(NLP)的可解释性工具包,并连同人类属性一起使用该工具包来理解这些模式。我们强调人类评估以衡量我们所有的技术。值得注意的是,我们的管道的大多数组成部分可以被广泛归纳为任何其他语言,以便对这些技术进行可解释的实施,特别是在低资源环境下。我们公开释放了所有软件、模型检查站和具有具体域预处理的新型数据集,以促进进一步的研究。

0
下载
关闭预览

相关内容

【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
Yoshua Bengio,使算法知道“为什么”
专知会员服务
8+阅读 · 2019年10月10日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
105+阅读 · 2019年10月9日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
已删除
将门创投
3+阅读 · 2018年4月10日
AutoML: A Survey of the State-of-the-Art
Arxiv
75+阅读 · 2019年8月14日
Arxiv
6+阅读 · 2018年2月26日
VIP会员
最新内容
全面的反无人机系统培训计划
专知会员服务
0+阅读 · 6分钟前
探秘Palantir:驱动美情报的科技巨头
专知会员服务
2+阅读 · 今天3:14
《美国海军军事海运司令部 2026年手册》
专知会员服务
3+阅读 · 今天3:05
《人工智能使能系统可靠性框架》
专知会员服务
6+阅读 · 今天2:28
2026“人工智能+”行业发展蓝皮书(附下载)
专知会员服务
14+阅读 · 4月26日
《强化学习数学基础》
专知会员服务
12+阅读 · 4月26日
“Maven计划”的发展演变之“Maven智能系统”应用
相关VIP内容
相关资讯
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
已删除
将门创投
3+阅读 · 2018年4月10日
Top
微信扫码咨询专知VIP会员