Many European languages possess rich biblical translation histories, yet existing corpora - in prioritizing linguistic breadth - often fail to capture this depth. To address this gap, we introduce a multilingual corpus of 651 New Testament translations, of which 334 are unique, spanning five languages with 2.4-5.0x more translations per language than any prior corpus: English (194 unique versions from 390 total), French (41 from 78), Italian (17 from 33), Polish (29 from 48), and Spanish (53 from 102). Aggregated from 12 online biblical libraries and one preexisting corpus, each translation is annotated with metadata that maps the text to a standardized identifier for the work, its specific edition, and its year of revision. This canonicalization allows researchers to define "uniqueness" for their own needs: they can perform micro-level analyses on translation families, such as the KJV lineage, or conduct macro-level studies by deduplicating closely related texts. By providing the first multilingual resource with sufficient depth per language for flexible, multilevel analysis, the corpus fills a gap in the quantitative study of translation history.


翻译:许多欧洲语言拥有丰富的圣经翻译历史,然而现有语料库——由于优先考虑语言广度——往往未能捕捉这种深度。为填补这一空白,我们引入了一个包含651个新约翻译的多语言语料库,其中334个为独特版本,涵盖五种语言,每种语言的翻译数量是先前任何语料库的2.4-5.0倍:英语(390个总版本中194个独特版本)、法语(78个中41个)、意大利语(33个中17个)、波兰语(48个中29个)和西班牙语(102个中53个)。该语料库汇集自12个在线圣经图书馆和一个现有语料库,每个翻译均标注有元数据,将文本映射到作品的标准化标识符、其特定版本及修订年份。这种规范化处理使研究人员能够根据自身需求定义“独特性”:他们可以对翻译家族(如KJV谱系)进行微观层面的分析,或通过去重高度相关的文本进行宏观层面的研究。通过提供首个在每种语言上具有足够深度、支持灵活多层次分析的多语言资源,本语料库填补了翻译史量化研究领域的空白。

0
下载
关闭预览

相关内容

重磅!《大语言模型》新书出炉,人大出版,391页pdf
专知会员服务
201+阅读 · 2024年4月15日
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
18+阅读 · 2022年6月14日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
【翻译技术速递】入门教程:Trados 翻译记忆库工具
翻译技术沙龙
38+阅读 · 2019年11月28日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
最新内容
战略前沿人工智能的再思考(中文)
专知会员服务
4+阅读 · 5月29日
《量化地基防空系统间接效应的博弈论方法》
专知会员服务
4+阅读 · 5月29日
“史诗怒火行动”中美军损失的作战飞机
专知会员服务
3+阅读 · 5月29日
ICML 2026 | 理解上下文持续学习中的泛化与遗忘
专知会员服务
5+阅读 · 5月28日
Agent Harness综述:大模型智能体执行器工程全景
专知会员服务
13+阅读 · 5月28日
《基于理论的威慑效能评估》
专知会员服务
8+阅读 · 5月28日
相关VIP内容
重磅!《大语言模型》新书出炉,人大出版,391页pdf
专知会员服务
201+阅读 · 2024年4月15日
【COMPTEXT2022教程】跨语言监督文本分类,41页ppt
专知会员服务
18+阅读 · 2022年6月14日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
36+阅读 · 2020年3月3日
相关资讯
【翻译技术速递】入门教程:Trados 翻译记忆库工具
翻译技术沙龙
38+阅读 · 2019年11月28日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
中文NLP福利!大规模中文自然语言处理语料
新智元
37+阅读 · 2019年2月13日
语料库构建——自然语言理解的基础
计算机研究与发展
11+阅读 · 2017年8月21日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员