Court judgments are central to legal practice and jurisprudence, yet discourse analysis of Hong Kong judgments has received limited attention, owing largely to the absence of expert-annotated corpora. We introduce the Hong Kong Judgment Discourse Dataset (HKJudge), the first sentence-level expert-annotated legal discourse corpus. HKJudge includes criminal judgments across all five levels of HK's court hierarchy, comprising $\sim$290k sentences and $\sim$6.5 million tokens, fully annotated by legal linguistics experts. We design a two-tier discourse schema that captures what facts a court finds, how it reasons, and what it rules. At the sentence level, each sentence is assigned one of 26 rhetorical roles. At the span level, sentences are further annotated with three sentencing elements (charge, imprisonment term, fine). Ten legal linguistics annotators produced the annotations with an inter-annotator agreement of $κ= 0.8$. We formulate two tasks on HKJudge, termed rhetorical role classification and legal element extraction, and provide the first benchmark evaluation of four BERT-based models, two open-source LLMs under zero-shot and fine-tuning settings, and four commercial LLMs on both tasks. Our work demonstrates the value of sentence-level discourse annotation for modeling the structure of HK judgments and provides a rich data foundation for future work on legal judgment prediction. The HKJudge dataset and code are available at https://github.com/xuanxixi/HKJudge.


翻译:法院判决是法律实践与法学研究的核心,然而,针对香港判决的话语分析却鲜受关注,主要原因在于缺乏专家标注语料库。本文介绍香港判决话语数据集(HKJudge),这是首个基于句子级别的专家标注法律话语语料库。HKJudge 包含香港法院五级司法体系中所有层级的刑事判决,共计约29万句、650万词元,由法律语言学专家完成全面标注。我们设计了一种双层话语标注框架,用以捕捉法院查明的事实、推理过程以及裁决结果。在句子级别,每个句子被赋予26种修辞角色之一;在片段级别,句子进一步被标注三种量刑要素(罪名、监禁刑期、罚金)。十位法律语言学标注员完成了标注工作,标注员间一致性达到 κ=0.8。我们基于 HKJudge 定义了两个任务,即修辞角色分类与法律要素提取,并在零样本与微调设置下,首次对四个基于 BERT 的模型、两个开源大语言模型以及四个商业大语言模型在这两项任务上进行了基准评估。本研究证明了句子级别话语标注对于建模香港判决结构的价值,并为未来法律判决预测研究奠定了丰富的数据基础。HKJudge 数据集与代码可在 https://github.com/xuanxixi/HKJudge 获取。

0
下载
关闭预览

相关内容

因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
收藏 | 中文公开聊天语料库及使用方法(附链接)
中文公开聊天语料库
专知
11+阅读 · 2019年3月9日
Jiagu:中文深度学习自然语言处理工具
AINLP
90+阅读 · 2019年2月20日
干货下载 | 中文自然语言处理 语料/数据集
七月在线实验室
51+阅读 · 2018年12月27日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
1+阅读 · 今天15:03
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
0+阅读 · 今天14:31
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
因果推断,Causal Inference:The Mixtape
专知会员服务
110+阅读 · 2021年8月27日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员