We present LuxBorrow, a borrowing-first analysis of Luxembourgish (LU) news spanning 27 years (1999-2025), covering 259,305 RTL articles and 43.7M tokens. Our pipeline combines sentence-level language identification (LU/DE/FR/EN) with a token-level borrowing resolver restricted to LU sentences, using lemmatization, a collected loanword registry, and compiled morphological and orthographic rules. Empirically, LU remains the matrix language across all documents, while multilingual practice is pervasive: 77.1% of articles include at least one donor language and 65.4% use three or four. Breadth does not imply intensity: median code-mixing index (CMI) increases from 3.90 (LU+1) to only 7.00 (LU+3), indicating localized insertions rather than balanced bilingual text. Domain and period summaries show moderate but persistent mixing, with CMI rising from 6.1 (1999-2007) to a peak of 8.4 in 2020. Token-level adaptations total 25,444 instances and exhibit a mixed profile: morphological 63.8%, orthographic 35.9%, lexical 0.3%. The most frequent individual rules are orthographic, such as on->oun and eur->er, while morphology is collectively dominant. Diachronically, code-switching intensifies, and morphologically adapted borrowings grow from a small base. French overwhelmingly supplies adapted items, with modest growth for German and negligible English. We advocate borrowing-centric evaluation, including borrowed token and type rates, donor entropy over borrowed items, and assimilation ratios, rather than relying only on document-level mixing indices.


翻译:本文提出LuxBorrow,一项针对卢森堡语(LU)新闻历时27年(1999-2025)的借用优先分析,涵盖259,305篇RTL文章与4370万词符。我们的处理流程结合了句子级语言识别(LU/DE/FR/EN)与限于卢森堡语句子的词符级借用解析器,运用词形还原、收集的借词登记表以及编纂的形态与正字法规则。实证表明,卢森堡语在所有文档中始终保持为基质语言,而多语实践则普遍存在:77.1%的文章包含至少一种供源语言,65.4%使用三种或四种语言。广度并不意味着强度:中位语码混合指数(CMI)从3.90(LU+1)仅增至7.00(LU+3),表明存在局部插入而非平衡的双语文本。领域与时期汇总显示混合程度适中但持续存在,CMI从6.1(1999-2007)上升至2020年的峰值8.4。词符级适应实例总计25,444例,呈现混合特征:形态适应占63.8%,正字法适应占35.9%,词汇适应占0.3%。最高频的个体规则属正字法类,如on->oun与eur->er,而形态适应在总体上占主导。历时来看,语码转换加剧,形态适应的借用词从较小基数持续增长。法语绝对主导适应项来源,德语贡献适度增长,英语影响可忽略。我们主张采用以借用为中心的评价指标,包括借用词符率与借用类型率、借用项上的供源语言熵以及同化比率,而非仅依赖文档级混合指数。

0
下载
关闭预览

相关内容

对比学习(Contrastive Learning)相关进展梳理
PaperWeekly
11+阅读 · 2020年5月12日
长文本表示学习概述
云栖社区
15+阅读 · 2019年5月9日
论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题
开放知识图谱
27+阅读 · 2018年5月17日
「知识表示学习」专题论文推荐 | 每周论文清单
文本分析 | 常用距离/相似度 一览
数说工作室
26+阅读 · 2017年10月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月17日
VIP会员
最新内容
《第四代军事特种作战部队选拔与评估》
专知会员服务
1+阅读 · 今天6:23
不对称优势上升:自主系统如何强化海上拒止
专知会员服务
1+阅读 · 今天5:51
《人工智能赋能电磁战》(报告)
专知会员服务
2+阅读 · 4月17日
【CMU博士论文】迈向可扩展的开放世界三维感知
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员