Targum - A Multilingual New Testament Translation Corpus - 专知论文

会员服务 ·

0

语料 · 语料库 · 分析 · 包含 · 在线 ·

Targum - A Multilingual New Testament Translation Corpus

翻译：Targum——一个多语言新约翻译语料库

Maciej Rapacz,Aleksander Smywiński-Pohl

Many European languages possess rich biblical translation histories, yet existing corpora - in prioritizing linguistic breadth - often fail to capture this depth. To address this gap, we introduce a multilingual corpus of 651 New Testament translations, of which 334 are unique, spanning five languages with 2.4-5.0x more translations per language than any prior corpus: English (194 unique versions from 390 total), French (41 from 78), Italian (17 from 33), Polish (29 from 48), and Spanish (53 from 102). Aggregated from 12 online biblical libraries and one preexisting corpus, each translation is annotated with metadata that maps the text to a standardized identifier for the work, its specific edition, and its year of revision. This canonicalization allows researchers to define "uniqueness" for their own needs: they can perform micro-level analyses on translation families, such as the KJV lineage, or conduct macro-level studies by deduplicating closely related texts. By providing the first multilingual resource with sufficient depth per language for flexible, multilevel analysis, the corpus fills a gap in the quantitative study of translation history.

翻译：许多欧洲语言拥有丰富的圣经翻译历史，然而现有语料库——由于优先考虑语言广度——往往未能捕捉这种深度。为填补这一空白，我们引入了一个包含651个新约翻译的多语言语料库，其中334个为独特版本，涵盖五种语言，每种语言的翻译数量是先前任何语料库的2.4-5.0倍：英语（390个总版本中194个独特版本）、法语（78个中41个）、意大利语（33个中17个）、波兰语（48个中29个）和西班牙语（102个中53个）。该语料库汇集自12个在线圣经图书馆和一个现有语料库，每个翻译均标注有元数据，将文本映射到作品的标准化标识符、其特定版本及修订年份。这种规范化处理使研究人员能够根据自身需求定义“独特性”：他们可以对翻译家族（如KJV谱系）进行微观层面的分析，或通过去重高度相关的文本进行宏观层面的研究。通过提供首个在每种语言上具有足够深度、支持灵活多层次分析的多语言资源，本语料库填补了翻译史量化研究领域的空白。

0

相关内容

重磅！《大语言模型》新书出炉，人大出版，391页pdf

重磅！《大语言模型》新书出炉，人大出版，391页pdf

专知会员服务

201+阅读 · 2024年4月15日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

【NAACL2021-Google】通过词汇替换实现对多语言机器翻译的持续学习

专知会员服务

16+阅读 · 2021年3月14日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

31+阅读 · 2021年1月25日

【Facebook AI】无监督机器翻译，336页ppt，Unsupervised Machine Translation

专知会员服务

19+阅读 · 2020年11月17日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

【翻译技术速递】入门教程：Trados 翻译记忆库工具

【翻译技术速递】入门教程：Trados 翻译记忆库工具

翻译技术沙龙

38+阅读 · 2019年11月28日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

关于聊天机器人，这里有一份中文聊天语料库资源

关于聊天机器人，这里有一份中文聊天语料库资源

AINLP

68+阅读 · 2019年4月4日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

《数学译林》

国家自然科学基金

2+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

Arxiv

0+阅读 · 4月22日

MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

Arxiv

0+阅读 · 4月13日

GPT-NL Public Corpus: A Permissively Licensed, Dutch-First Dataset for LLM Pre-training

Arxiv

0+阅读 · 4月1日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月18日

PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

Arxiv

0+阅读 · 3月17日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月17日

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

Arxiv

0+阅读 · 3月16日

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

Arxiv

0+阅读 · 3月14日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation

Arxiv

0+阅读 · 2月27日

VIP会员

文章信息

相关主题

最新内容

对抗环境下超视距目标打击的情报支援

对抗环境下超视距目标打击的情报支援

专知会员服务

8+阅读 · 7月22日

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

专知会员服务

3+阅读 · 7月22日

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

专知会员服务

7+阅读 · 7月22日

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

专知会员服务

7+阅读 · 7月22日

《无人机对海面作战影响评估》

《无人机对海面作战影响评估》

专知会员服务

15+阅读 · 7月21日

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

《可损耗无人系统规模化应用对美国军事转型的战略影响（2022-2030）》2026年270页

专知会员服务

13+阅读 · 7月21日

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

博士论文 | 后训练如何损害大模型生成多样性？SimpleStrat与Stylus

专知会员服务

4+阅读 · 7月21日

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

综述 | 面向5G/6G网络的LLM智能体AI：架构、协议与标准化

专知会员服务

6+阅读 · 7月21日

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

五角大楼新设无人机办公室（DRPM-UxS）将如何重塑美国无人系统格局（附美国防部设立备忘录）

专知会员服务

9+阅读 · 7月21日

印度精确打击与指挥架构的断层

印度精确打击与指挥架构的断层

专知会员服务

7+阅读 · 7月20日

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

《NASA喷气推进实验室：高耐久轻质常驻空观测系统（HELIOS）》429页

专知会员服务

9+阅读 · 7月20日

美空军AI完成F-16战斗机自主空战历史性试飞

美空军AI完成F-16战斗机自主空战历史性试飞

专知会员服务

8+阅读 · 7月20日

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

《美政府问责局——武器系统年度评估（2026年）：强制要求成熟技术或可推动转向快速交付》249页

专知会员服务

10+阅读 · 7月20日

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

《美国陆军：通过弹性分布式模型库实现自适应AI优势》

专知会员服务

9+阅读 · 7月20日

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

博士论文 | 理解与改进大语言模型推理：从反转诅咒到连续思维链

专知会员服务

10+阅读 · 7月20日

相关VIP内容

重磅！《大语言模型》新书出炉，人大出版，391页pdf

重磅！《大语言模型》新书出炉，人大出版，391页pdf

专知会员服务

201+阅读 · 2024年4月15日

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

【COMPTEXT2022教程】跨语言监督文本分类，41页ppt

专知会员服务

18+阅读 · 2022年6月14日

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

653页PDF，含PPT，斯坦福大学、科罗拉多大学最新【语音与语言处理】书稿《语音与语言处理:自然语言处理、计算语言学与语音识别概论 "Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition》

专知会员服务

47+阅读 · 2022年2月25日

【NAACL2021-Google】通过词汇替换实现对多语言机器翻译的持续学习

专知会员服务

16+阅读 · 2021年3月14日

最新《机器翻译》进展报告，纽约大学Kyunghyun Cho讲解，附50页ppt

专知会员服务

31+阅读 · 2021年1月25日

【Facebook AI】无监督机器翻译，336页ppt，Unsupervised Machine Translation

专知会员服务

19+阅读 · 2020年11月17日

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

多语言神经机器翻译综述论文，34页pdf，A Comprehensive Survey of Multilingual Neural Machine Translation

专知会员服务

19+阅读 · 2020年4月25日

【Google】无监督机器翻译，Unsupervised Machine Translation

【Google】无监督机器翻译，Unsupervised Machine Translation

专知会员服务

36+阅读 · 2020年3月3日

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

【Tom Kocmi博士论文】探索迁移学习在神经机器翻译中的益处，附162页PDF下载

专知会员服务

25+阅读 · 2020年1月10日

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

【论文】多语言神经机器翻译综述（A Comprehensive Survey of Multilingual Neural Machine Translation）

专知会员服务

20+阅读 · 2020年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向复杂地形下无人机跟踪地面机器人（UAV–UGV）的自适应多滤波器扩展卡尔曼滤波框架》

共享认知，分布式研判：复杂行动中的美国空军指挥控制（万字长文）

对抗环境下超视距目标打击的情报支援

纵深侦察：大规模作战行动中远程侦察与监视之迫切需求

相关资讯

【翻译技术速递】入门教程：Trados 翻译记忆库工具

【翻译技术速递】入门教程：Trados 翻译记忆库工具

翻译技术沙龙

38+阅读 · 2019年11月28日

【综述】多语言神经机器翻译最新综述，附全文下载

【综述】多语言神经机器翻译最新综述，附全文下载

专知

32+阅读 · 2019年5月15日

关于聊天机器人，这里有一份中文聊天语料库资源

关于聊天机器人，这里有一份中文聊天语料库资源

AINLP

68+阅读 · 2019年4月4日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

GitHub出现一个大型中文NLP资源，宣称要放出亿级语料库

量子位

26+阅读 · 2019年2月14日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

NLP Chinese Corpus项目：大规模中文自然语言处理语料

NLP Chinese Corpus项目：大规模中文自然语言处理语料

AINLP

13+阅读 · 2019年2月11日

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

资源警告！有人收罗了40个中文NLP词库，放到了GitHub上

量子位

15+阅读 · 2018年11月16日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

RespondeoQA: a Benchmark for Bilingual Latin-English Question Answering

Arxiv

0+阅读 · 4月22日

MCGA: A Multi-task Classical Chinese Literary Genre Audio Corpus

Arxiv

0+阅读 · 4月13日

GPT-NL Public Corpus: A Permissively Licensed, Dutch-First Dataset for LLM Pre-training

Arxiv

0+阅读 · 4月1日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月18日

PashtoCorp: A 1.25-Billion-Word Corpus, Evaluation Suite, and Reproducible Pipeline for Low-Resource Language Development

Arxiv

0+阅读 · 3月17日

Omnilingual MT: Machine Translation for 1,600 Languages

Arxiv

0+阅读 · 3月17日

Developing an English-Efik Corpus and Machine Translation System for Digitization Inclusion

Arxiv

0+阅读 · 3月16日

NepTam: A Nepali-Tamang Parallel Corpus and Baseline Machine Translation Experiments

Arxiv

0+阅读 · 3月14日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

GRDD+: An Extended Greek Dialectal Dataset with Cross-Architecture Fine-tuning Evaluation

Arxiv

0+阅读 · 2月27日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

基于神经网络的跨语言实体链指研究

国家自然科学基金

5+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

多域网络安全的异构策略语义形态与验证机制

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

《数学译林》

国家自然科学基金

2+阅读 · 2014年12月31日

基于潜在语义对偶空间的新词翻译自动识别方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员