Multinational companies increasingly require cross-jurisdictional contract review, yet existing legal NLP datasets are largely restricted to a single jurisdiction. We introduce LAUKIN (Legal equivalence dataset of Australia, UK, and INdia), a dataset of clause pairs (AU-UK, UK-IN, IN-AU) labelled for boolean legal equivalence. We develop a novel multi-stage retrieval and reranking pipeline to construct the initial clause pair mapping, with a subset of clause pairs subsequently annotated by legal experts as Equivalent or Not Equivalent. The dataset comprises 14,727 clause pairs from 204 contracts across 8 agreement types, of which 3,000 are manually labelled: 900 train, 600 dev, and 1,500 test. We evaluate 12 models across 4 techniques, achieving a best macro-F1 of 65.11%, establishing LAUKIN as a challenging benchmark. Results reveal that, despite shared legal heritage, drafting conventions diverge significantly across jurisdictions, making cross-jurisdictional equivalence classification non-trivial. LAUKIN also includes 11,727 unlabelled training pairs to support future semi-supervised learning research in legal NLP.


翻译:跨国企业日益需要跨司法管辖区的合同审查,然而现有法律自然语言处理数据集大多局限于单一司法管辖区。我们提出LAUKIN(澳大利亚、英国和印度法律等价数据集),该数据集包含标注布尔法律等价性的条款对(澳-英、英-印、印-澳)。我们开发了一种新颖的多阶段检索与重排序流水线来构建初始条款对映射,随后由法律专家对部分条款对进行等价或非等价的标注。该数据集包含来自204份合同(涵盖8种协议类型)的14,727个条款对,其中3,000个条款对经人工标注:900个训练集、600个验证集和1,500个测试集。我们评估了4种技术下的12个模型,取得了最高宏平均F1值65.11%,将LAUKIN确立为具有挑战性的基准。结果表明,尽管具有共同的法律渊源,但不同司法管辖区的起草惯例存在显著差异,使得跨司法管辖区的等价性分类具有相当难度。LAUKIN还包含11,727个无标注训练对,以支持未来法律自然语言处理领域的半监督学习研究。

0
下载
关闭预览

相关内容

法律是国家制定或认可的,由国家强制力保证实施的,以规定权利和义务为内容的具有普遍约束力的社会规范。
《MERLIN:面向推广资源与研究的国家数据管理平台》报告
专知会员服务
18+阅读 · 2025年12月27日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
揭秘最神秘的大数据公司 Palantir
数据库开发
21+阅读 · 2017年11月13日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月31日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
5+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
8+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
10+阅读 · 6月17日
相关VIP内容
《MERLIN:面向推广资源与研究的国家数据管理平台》报告
专知会员服务
18+阅读 · 2025年12月27日
TransMLA:多头潜在注意力(MLA)即为所需
专知会员服务
23+阅读 · 2025年2月13日
相关资讯
最全中文自然语言处理数据集、平台和工具整理
深度学习与NLP
34+阅读 · 2019年6月22日
中文自然语言处理数据集:ChineseNLPCorpus
AINLP
35+阅读 · 2019年6月21日
非平衡数据集 focal loss 多类分类
AI研习社
33+阅读 · 2019年4月23日
跨多个异构数据源的实体对齐
FCS
15+阅读 · 2019年3月13日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
自然语言处理(NLP)数据集整理
论智
20+阅读 · 2018年4月8日
揭秘最神秘的大数据公司 Palantir
数据库开发
21+阅读 · 2017年11月13日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员