The availability of structured legal data is important for advancing Natural Language Processing (NLP) techniques for the German legal system. One of the most widely used datasets, Open Legal Data, provides a large-scale collection of German court decisions. While the metadata in this raw dataset is consistently structured, the decision texts themselves are inconsistently formatted and often lack clearly marked sections. Reliable separation of these sections is important not only for rhetorical role classification but also for downstream tasks such as retrieval and citation analysis. In this work, we introduce a cleaned and sectioned dataset of 251,038 German court decisions derived from the official Open Legal Data dataset. We systematically separated three important sections in German court decisions, namely Tenor (operative part of the decision), Tatbestand (facts of the case), and Entscheidungsgründe (judicial reasoning), which are often inconsistently represented in the original dataset. To ensure the reliability of our extraction process, we used Cochran's formula with a 95% confidence level and a 5% margin of error to draw a statistically representative random sample of 384 cases, and manually verified that all three sections were correctly identified. We also extracted the Rechtsmittelbelehrung (appeal notice) as a separate field, since it is a procedural instruction and not part of the decision itself. The resulting corpus is publicly available in the JSONL format, making it an accessible resource for further research on the German legal system.


翻译:结构化法律数据的可获得性对于推进德国法律系统的自然语言处理技术至关重要。开放法律数据作为最广泛使用的数据集之一,提供了大规模的德国法院判决书集合。尽管该原始数据集中的元数据结构一致,但判决文本本身的格式并不统一,且常常缺乏明确标记的章节。对这些章节进行可靠分割不仅对修辞角色分类具有重要意义,也对检索和引用分析等下游任务至关重要。本研究基于官方开放法律数据集,构建了一个包含251,038份德国法院判决书的清洁化分章节数据集。我们系统性地分离了德国法院判决书中三个重要章节:判决主文、案件事实和裁判理由,这些章节在原始数据集中往往呈现不一致。为确保提取过程的可靠性,我们采用置信水平95%、误差幅度5%的科克伦公式,抽取了384个具有统计代表性的随机样本,并人工验证了所有三个章节的正确识别。同时,我们将上诉告知作为独立字段提取,因其属于程序性指示而非判决本身组成部分。最终生成的语料库以JSONL格式公开提供,为德国法律系统的进一步研究提供了可访问的资源。

0
下载
关闭预览

相关内容

法律是国家制定或认可的,由国家强制力保证实施的,以规定权利和义务为内容的具有普遍约束力的社会规范。
【NTU博士论文】将上下文融入开放信息抽取
专知会员服务
21+阅读 · 2024年11月11日
【干货书】开放数据结构,Open Data Structures,337页pdf
专知会员服务
19+阅读 · 2021年9月17日
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
23+阅读 · 2018年7月28日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
OpenNRE 2.0:可一键运行的开源关系抽取工具包
PaperWeekly
22+阅读 · 2019年10月30日
文本生成公开数据集/开源工具/经典论文详细列表分享
深度学习与NLP
30+阅读 · 2019年9月22日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
如何做数据治理?
智能交通技术
19+阅读 · 2019年4月20日
历史最全-16个推荐系统开放公共数据集整理分享
深度学习与NLP
23+阅读 · 2018年7月28日
自然语言处理领域公开数据集
黑龙江大学自然语言处理实验室
67+阅读 · 2018年4月19日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
相关基金
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
11+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员