Interlinear glossed text (IGT) is the standard format for linguistic annotation in language documentation. Producing it manually, however, is often slow and costly. Automated glossing systems have improved substantially in recent years, but adoption among field linguists remains limited. Existing tools are designed to be evaluated rather than used, offering no interpretable path for correction or the incorporation of linguistic expertise back into model behavior. We present GlossAssist, a glossing tool built around the retrieval-based architecture of CWoMP (Contrastive Word-Morpheme Pre-training), which grounds predictions in a mutable lexicon of learned morpheme representations. In conjunction with CWoMP, our system treats each correction by an annotator as part of an active learning setting, which expands the lexicon and improves future predictions without having to retrain the model. In this paper, we present our interface and argue that this feedback loop should be treated as a design requirement for NLP tools aimed at documentary linguists.


翻译:行间注释文本(IGT)是语言文献记录中语言标注的标准格式。然而,手动生成此类文本通常既缓慢又昂贵。近年来,自动化注释系统已取得显著改进,但在田野语言学家中的采用率仍然有限。现有工具专为评估而非实际使用而设计,无法提供可解释的修正路径或将语言学专业知识融入模型行为。我们提出GlossAssist,一种基于CWMoMP(对比词素预训练)检索式架构构建的注释工具,该工具将预测结果建立在可变的已学习词素表示词典之上。与CWMoMP结合后,我们的系统将注释者的每次修正视为主动学习环境的一部分,从而扩展词典并在无需重新训练模型的情况下改进后续预测。本文介绍了我们的交互界面,并主张这种反馈循环应被视作为文献语言学家设计自然语言处理工具时的基本要求。

0
下载
关闭预览

相关内容

专知会员服务
81+阅读 · 2021年5月30日
专知会员服务
65+阅读 · 2021年5月29日
【经典书】自然语言标注—用于机器学习,341页pdf
专知会员服务
55+阅读 · 2021年2月12日
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
2+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
6+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
3+阅读 · 6月17日
相关资讯
金融领域自然语言处理研究资源大列表
专知
13+阅读 · 2020年2月27日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员