AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels - 专知论文

会员服务 ·

0

树库 · 语料 · 依存树库 · 标注 · 对齐 ·

AthDGC: An Open Diachronic Greek Treebank with Indo-European Parallels

翻译：阿蒂卡历时希腊语依存树库：含印欧语平行语料的开放性历时语料库

Nikolaos Lavidas,Kiki Nikiforidou,Dag Haug,Leonid Kulikov,Vassiliki Geka,Vassileios Symeonidis,Theodoros Michalareas,Sofia Chionidi,Anastasia Tsiropina,Eleni Plakoutsi,Evangelos Argyropoulos

from arxiv, 16 pages. Data paper for the v0.4 release of AthDGC. Concept DOI: 10.5281/zenodo.20439182. Companion site: https://athdgc.github.io

AthDGC ("Athens-PROIEL") is an open, end-to-end workflow and dataset. It is, to the best of our knowledge, the first openly licensed dependency-parsed treebank of Greek that spans eight diachronic periods, namely Archaic, Classical, Koine, Late Antique, Byzantine, Late Byzantine, Early Modern, and Modern Greek, under a single PROIEL XML 2.0 schema, with verse-level cross-alignment of the New Testament to Latin (Vulgate), Gothic (Wulfila), Old Church Slavonic (Marianus), and Classical Armenian. AthDGC builds on the PROIEL Treebank Family (Haug and Johndal 2008; Eckhoff et al. 2018), which established the schema and the Koine-Greek reference set for the project. Annotation uses the Stanford Stanza PROIEL-trained workflow; sentence-level alignment uses LaBSE, a multilingual sentence-embedding model; word-level alignment uses multilingual-BERT attention through the AwesomeAlign procedure. The v0.4 release provides curated samples and the open-source toolkit; the full annotated corpus partitions remain under v0.5 audit on the Greek national HPC. Quantitative scale, per-witness verse counts, and per-period annotated-row counts are reported in the v0.5 release notes, after the audit pass completes. Concept DOI: 10.5281/zenodo.20439182.

翻译：阿蒂卡历时希腊语依存树库（"Athens-PROIEL"）是一个开放的端到端工作流与数据集。据我们所知，它是首个在单一PROIEL XML 2.0架构下，跨越八个历时阶段（即古风期、古典期、通用希腊语期、晚期古典期、拜占庭期、晚期拜占庭期、早期现代期及现代希腊语期）并遵循开源许可的依存句法树库，同时包含《新约》与拉丁语（武加大译本）、哥特语（乌尔菲拉译本）、古教会斯拉夫语（马里亚努斯抄本）及古典亚美尼亚语在诗句级层面的交叉对齐。该树库基于PROIEL树库家族（Haug and Johndal 2008; Eckhoff et al. 2018）构建，后者为本项目确立了数据架构及通用希腊语参考集。标注工作采用斯坦福Stanza的PROIEL训练工作流，句级对齐使用多语句子嵌入模型LaBSE，词级对齐则通过AwesomeAlign流程调用多语言BERT注意力机制。v0.4版本提供精选样本与开源工具包；完整的标注语料分区目前仍在希腊国家高性能计算平台上接受v0.5审核。定量规模（各见证段诗句数及各时期标注行数）将在审核通过后于v0.5版本发布说明中公布。概念DOI：10.5281/zenodo.20439182。

0

相关内容

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

9+阅读 · 6月19日

ACL2024 | IEPILE:大规模基于Schema的信息抽取语料库

ACL2024 | IEPILE:大规模基于Schema的信息抽取语料库

专知会员服务

32+阅读 · 2024年6月20日

《面向现代语义通信的语义知识库技术白皮书》正式发布

《面向现代语义通信的语义知识库技术白皮书》正式发布

专知会员服务

58+阅读 · 2023年12月13日

清华乔嘉林：Apache IoTDB——基于开放数据文件格式的时序数据库

清华乔嘉林：Apache IoTDB——基于开放数据文件格式的时序数据库

专知会员服务

25+阅读 · 2022年7月7日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

南洋理工最新《视频自然语言定位》2022综述

南洋理工最新《视频自然语言定位》2022综述

专知会员服务

25+阅读 · 2022年1月29日

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

专知会员服务

26+阅读 · 2021年8月9日

【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing

【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing

专知会员服务

66+阅读 · 2020年7月12日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

专知会员服务

25+阅读 · 2020年3月17日

预知未来——Gluon 时间序列工具包（GluonTS）

预知未来——Gluon 时间序列工具包（GluonTS）

ApacheMXNet

24+阅读 · 2019年6月25日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

51+阅读 · 2018年12月27日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

专知

11+阅读 · 2017年11月29日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

西藏阿里地区外流河流域古代聚落与建筑研究

国家自然科学基金

0+阅读 · 2014年12月31日

TSseek: Regular Expression-Based Similarity Search for Distributed Time Series Datasets

Arxiv

0+阅读 · 6月18日

AmchiBias: Measuring Stereotypical Bias in Goan Identity Groups with a Minimal Pair Dataset in English and Konkani

Arxiv

0+阅读 · 6月13日

AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages

Arxiv

0+阅读 · 6月10日

EDEN: A Large-Scale Corpus of Clinical Notes for Italian

Arxiv

0+阅读 · 6月10日

ShrinkageTrees: An R Package for Bayesian Tree Ensembles for Survival Analysis and Causal Inference

Arxiv

0+阅读 · 6月10日

Diamonds Are Forever: Stabilization Semantics for Unrestricted Aggregation and Recursion in Logica

Arxiv

0+阅读 · 6月3日

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Arxiv

0+阅读 · 5月26日

torchtune: PyTorch native post-training library

Arxiv

0+阅读 · 5月20日

HERITRACE: a domain-agnostic framework for SHACL-driven RDF curation with provenance and change tracking

Arxiv

0+阅读 · 5月3日

OpenCitations Meta

Arxiv

0+阅读 · 4月23日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

专知会员服务

0+阅读 · 40分钟前

GNN跨域综述：从消息传递到图基础模型

GNN跨域综述：从消息传递到图基础模型

专知会员服务

0+阅读 · 42分钟前

无人机自主控制与人工智能：系统性综述

无人机自主控制与人工智能：系统性综述

专知会员服务

10+阅读 · 今天7:25

巡飞弹与反无人机系统——现代战场的两大支柱

巡飞弹与反无人机系统——现代战场的两大支柱

专知会员服务

3+阅读 · 今天6:54

《打造“黄金舰队”》57页报告

《打造“黄金舰队”》57页报告

专知会员服务

3+阅读 · 今天6:52

《北约数字教官网络发展路径》128页报告

《北约数字教官网络发展路径》128页报告

专知会员服务

2+阅读 · 今天6:33

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

ECCV 2026 | MIMFlow：MIM与归一化流统一图像生成

专知会员服务

7+阅读 · 6月25日

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

超越自回归边界：扩散模型、世界模型与SSM如何重塑代码智能

专知会员服务

6+阅读 · 6月25日

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

重塑决策优势：美军作战艺术与多域作战中联盟联合全域指挥控制（CJADC2）体系的融合

专知会员服务

10+阅读 · 6月25日

网状网络及其在军事领域的运用

网状网络及其在军事领域的运用

专知会员服务

8+阅读 · 6月25日

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

《意识即战场——全球安全体系中认知战的演进：乌克兰构建认知作战体系的展望》

专知会员服务

8+阅读 · 6月25日

无美国参与的欧洲战争方式（万字长文）

无美国参与的欧洲战争方式（万字长文）

专知会员服务

8+阅读 · 6月25日

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

重构“下一场战争”的制胜理论：超越兰彻斯特方程与现代系统

专知会员服务

10+阅读 · 6月25日

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

《国防工业中基于模型定义的实施：产品定义数字化转型的战略路径》90页

专知会员服务

9+阅读 · 6月25日

《国防领域敏感性分析白皮书》

《国防领域敏感性分析白皮书》

专知会员服务

9+阅读 · 6月25日

相关VIP内容

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

9+阅读 · 6月19日

ACL2024 | IEPILE:大规模基于Schema的信息抽取语料库

ACL2024 | IEPILE:大规模基于Schema的信息抽取语料库

专知会员服务

32+阅读 · 2024年6月20日

《面向现代语义通信的语义知识库技术白皮书》正式发布

《面向现代语义通信的语义知识库技术白皮书》正式发布

专知会员服务

58+阅读 · 2023年12月13日

清华乔嘉林：Apache IoTDB——基于开放数据文件格式的时序数据库

清华乔嘉林：Apache IoTDB——基于开放数据文件格式的时序数据库

专知会员服务

25+阅读 · 2022年7月7日

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

【Facebook AI】fastText是一个用于高效学习单词表示和句子分类的库

专知会员服务

22+阅读 · 2022年3月25日

南洋理工最新《视频自然语言定位》2022综述

南洋理工最新《视频自然语言定位》2022综述

专知会员服务

25+阅读 · 2022年1月29日

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

tf_geometric — 基于TensorFlow的友好高效的图神经网络（GNN）库

专知会员服务

26+阅读 · 2021年8月9日

【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing

【知识图谱@ACL2020】Knowledge Graphs in Natural Language Processing

专知会员服务

66+阅读 · 2020年7月12日

【CMU-TACL2020】低资源跨语言实体链接，Low-resource Crosslingual EntityLinking

专知会员服务

17+阅读 · 2020年3月29日

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

【香港中文大学-VLDB2020】Dash:可扩展的持久内存哈希，Scalable Hashing

专知会员服务

25+阅读 · 2020年3月17日

热门VIP内容

开通专知VIP会员享更多权益服务

GNN跨域综述：从消息传递到图基础模型

巡飞弹与反无人机系统——现代战场的两大支柱

ICML 2026 | 自回归Boltzmann生成器重塑分子采样

无人机自主控制与人工智能：系统性综述

相关资讯

预知未来——Gluon 时间序列工具包（GluonTS）

预知未来——Gluon 时间序列工具包（GluonTS）

ApacheMXNet

24+阅读 · 2019年6月25日

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

中文自然语言处理数据集：ChineseNLPCorpus（附链接）

数据派THU

37+阅读 · 2019年6月23日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文公开聊天语料库

中文公开聊天语料库

专知

11+阅读 · 2019年3月9日

干货下载 | 中文自然语言处理语料/数据集

干货下载 | 中文自然语言处理语料/数据集

七月在线实验室

51+阅读 · 2018年12月27日

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

【泡泡图灵智库】Complex-YOLO：一个用于实时点云3D目标检测的欧拉区域提议网络（arXiv）

泡泡机器人SLAM

20+阅读 · 2018年12月27日

Facebook开源MUSE：多语言无监督和监督词向量库

Facebook开源MUSE：多语言无监督和监督词向量库

论智

20+阅读 · 2017年12月23日

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

专知

11+阅读 · 2017年11月29日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

TSseek: Regular Expression-Based Similarity Search for Distributed Time Series Datasets

Arxiv

0+阅读 · 6月18日

AmchiBias: Measuring Stereotypical Bias in Goan Identity Groups with a Minimal Pair Dataset in English and Konkani

Arxiv

0+阅读 · 6月13日

AfriSUD: A Dependency Treebank Collection for Evaluating Models on African Languages

Arxiv

0+阅读 · 6月10日

EDEN: A Large-Scale Corpus of Clinical Notes for Italian

Arxiv

0+阅读 · 6月10日

ShrinkageTrees: An R Package for Bayesian Tree Ensembles for Survival Analysis and Causal Inference

Arxiv

0+阅读 · 6月10日

Diamonds Are Forever: Stabilization Semantics for Unrestricted Aggregation and Recursion in Logica

Arxiv

0+阅读 · 6月3日

ParsVoice: A Large-Scale Multi-Speaker Persian Speech Corpus for Text-to-Speech Synthesis

Arxiv

0+阅读 · 5月26日

torchtune: PyTorch native post-training library

Arxiv

0+阅读 · 5月20日

HERITRACE: a domain-agnostic framework for SHACL-driven RDF curation with provenance and change tracking

Arxiv

0+阅读 · 5月3日

OpenCitations Meta

Arxiv

0+阅读 · 4月23日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

混沌时间序列Volterra建模及其在语音信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

新疆杂话有声数据库建设研究

国家自然科学基金

1+阅读 · 2014年12月31日

运动目标间语义关系的时空建模及可视化研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

Android移动终端多语种基础软件组合的安全技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

行为轨迹数据高性能时空聚类及社会分析

国家自然科学基金

2+阅读 · 2014年12月31日

西藏阿里地区外流河流域古代聚落与建筑研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员