Existing linguistic knowledge bases such as URIEL+ provide valuable geographic, genetic and typological distances for cross-lingual transfer but suffer from two key limitations. First, their one-size-fits-all vector representations are ill-suited to the diverse structures of linguistic data. Second, they lack a principled method for aggregating these signals into a single, comprehensive score. In this paper, we address these gaps by introducing a framework for type-matched language distances. We propose novel, structure-aware representations for each distance type: speaker-weighted distributions for geography, hyperbolic embeddings for genealogy, and a latent variables model for typology. We unify these signals into a robust, task-agnostic composite distance. Across multiple zero-shot transfer benchmarks, we demonstrate that our representations significantly improve transfer performance when the distance type is relevant to the task, while our composite distance yields gains in most tasks.


翻译:现有的语言知识库(如URIEL+)为跨语言迁移提供了宝贵的地理、谱系和类型学距离信息,但存在两个关键局限。首先,其“一刀切”的向量表示难以适应语言数据的多样化结构。其次,它们缺乏将这些信号聚合为单一综合评分的理论方法。本文通过引入类型匹配的语言距离框架来解决这些不足。我们为每种距离类型提出了新颖的结构感知表示:针对地理距离的说话者加权分布、针对谱系距离的双曲嵌入,以及针对类型学距离的潜变量模型。我们将这些信号统一为稳健的任务无关复合距离。在多个零样本迁移基准测试中,我们证明当距离类型与任务相关时,我们的表示能显著提升迁移性能,而我们的复合距离在大多数任务中均能带来增益。

0
下载
关闭预览

相关内容

【NTU博士论文】语言模型自适应迁移学习
专知会员服务
38+阅读 · 2023年12月20日
【深度语义匹配模型】原理篇二:交互篇
AINLP
16+阅读 · 2020年5月18日
绝对干货!NLP预训练模型:从transformer到albert
新智元
13+阅读 · 2019年11月10日
一文看懂自然语言处理中迁移学习的现状
AI前线
10+阅读 · 2019年8月27日
迁移自适应学习最新综述,附21页论文下载
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NTU博士论文】语言模型自适应迁移学习
专知会员服务
38+阅读 · 2023年12月20日
相关基金
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员