韩国规范法律基准：面向大语言模型法律推理能力的知识独立评估 (Korean Canonical Legal Benchmark: Toward Knowledge-Independent Evaluation of LLMs' Legal Reasoning Capabilities) - 专知论文

会员服务 ·

0

KCL · 法律 · 基准 · 知识 · 韩国 ·

2025 年 12 月 31 日

Korean Canonical Legal Benchmark: Toward Knowledge-Independent Evaluation of LLMs' Legal Reasoning Capabilities

翻译：韩国规范法律基准：面向大语言模型法律推理能力的知识独立评估

Hongseok Oh,Wonseok Hwang,Kyoung-Woon On

We introduce the Korean Canonical Legal Benchmark (KCL), a benchmark designed to assess language models' legal reasoning capabilities independently of domain-specific knowledge. KCL provides question-level supporting precedents, enabling a more faithful disentanglement of reasoning ability from parameterized knowledge. KCL consists of two components: (1) KCL-MCQA, multiple-choice problems of 283 questions with 1,103 aligned precedents, and (2) KCL-Essay, open-ended generation problems of 169 questions with 550 aligned precedents and 2,739 instance-level rubrics for automated evaluation. Our systematic evaluation of 30+ models shows large remaining gaps, particularly in KCL-Essay, and that reasoning-specialized models consistently outperform their general-purpose counterparts. We release all resources, including the benchmark dataset and evaluation code, at https://github.com/lbox-kr/kcl.

翻译：本文提出韩国规范法律基准（KCL），该基准旨在独立于领域特定知识评估语言模型的法律推理能力。KCL提供问题层面的支持性判例，从而更可靠地将推理能力与参数化知识解耦。KCL包含两个组成部分：（1）KCL-MCQA：包含283道选择题及1,103个对应判例的多选题集；（2）KCL-Essay：包含169道开放式生成题、550个对应判例以及2,739个实例级评分量表的论述题集，支持自动化评估。我们对30余个模型的系统性评估表明，现有模型仍存在显著性能差距（尤其在KCL-Essay任务中），且专精推理的模型持续优于通用模型。我们已通过https://github.com/lbox-kr/kcl公开全部资源，包括基准数据集与评估代码。

0

相关内容

KCL

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

专知会员服务

37+阅读 · 2025年4月7日

161页《大模型推理》最新综述，涵盖650多篇大模型论文

161页《大模型推理》最新综述，涵盖650多篇大模型论文

专知会员服务

127+阅读 · 2024年1月27日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

76+阅读 · 2023年12月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

法研杯2019阅读理解赛道冠军方案分享（含PPT）

法研杯2019阅读理解赛道冠军方案分享（含PPT）

AINLP

67+阅读 · 2019年8月25日

数据标注术语和规范国家标准出炉,你的写法符合规范么?

数据标注术语和规范国家标准出炉,你的写法符合规范么?

专知

17+阅读 · 2019年3月21日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

开放知识图谱

14+阅读 · 2018年7月5日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

母血浆胎儿DNA甲基化标记的法医学应用基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月28日

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

Arxiv

0+阅读 · 1月27日

BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models

Arxiv

0+阅读 · 1月25日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月23日

OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models

Arxiv

0+阅读 · 1月20日

Knowledge Graph-Assisted LLM Post-Training for Enhanced Legal Reasoning

Arxiv

0+阅读 · 1月20日

Thinking Longer, Not Always Smarter: Evaluating LLM Capabilities in Hierarchical Legal Reasoning

Arxiv

0+阅读 · 1月20日

A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms

Arxiv

0+阅读 · 1月19日

OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand

Arxiv

0+阅读 · 1月19日

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

相关VIP内容

大语言模型的智能体化推理

大语言模型的智能体化推理

专知会员服务

32+阅读 · 1月21日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

142页DeepSeek-R1 思维链技术：让我们一起<思考>大语言模型（LLM）的推理能力

专知会员服务

48+阅读 · 2025年4月12日

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

大型语言模型推理前沿综述：推理扩展、学习推理与自主智能系统

专知会员服务

37+阅读 · 2025年4月7日

161页《大模型推理》最新综述，涵盖650多篇大模型论文

161页《大模型推理》最新综述，涵盖650多篇大模型论文

专知会员服务

127+阅读 · 2024年1月27日

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

一文说尽「大模型推理」！12家高校机构联合发布150页报告，综述750篇论文

专知会员服务

76+阅读 · 2023年12月23日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

英国国防科技实验室最新论文《知识表示与推理在国防中的应用》，Knowledge Representation and Reasoning for Defence

专知会员服务

77+阅读 · 2022年4月5日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

热门VIP内容

开通专知VIP会员享更多权益服务

论学习、公平性与复杂度

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

2025中国人工智能学会系列白皮书⸺棋盘上的人工智能|附下载

通用智能体评估的逻辑架构

相关资讯

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

国家标准《信息技术大数据数据资产价值评估》（征求意见稿）

专知

18+阅读 · 2022年9月9日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

法研杯2019阅读理解赛道冠军方案分享（含PPT）

法研杯2019阅读理解赛道冠军方案分享（含PPT）

AINLP

67+阅读 · 2019年8月25日

数据标注术语和规范国家标准出炉,你的写法符合规范么?

数据标注术语和规范国家标准出炉,你的写法符合规范么?

专知

17+阅读 · 2019年3月21日

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

百度提出ERNIE，多项中文NLP任务表现出色（已开源）

AI100

33+阅读 · 2019年3月16日

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

论文浅尝 | 用可微的逻辑规则学习完成知识库推理

开放知识图谱

14+阅读 · 2018年7月5日

【读书笔记】基于知识库的问答：生成查询图进行语义分析

【读书笔记】基于知识库的问答：生成查询图进行语义分析

专知

16+阅读 · 2018年3月25日

关系推理：基于表示学习和语义要素

关系推理：基于表示学习和语义要素

计算机研究与发展

19+阅读 · 2017年8月22日

语音识别之--韩语语音识别

语音识别之--韩语语音识别

微信AI

16+阅读 · 2017年8月2日

相关论文

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月28日

LOGICAL-COMMONSENSEQA: A Benchmark for Logical Commonsense Reasoning

Arxiv

0+阅读 · 1月27日

BeDiscovER: The Benchmark of Discourse Understanding in the Era of Reasoning Language Models

Arxiv

0+阅读 · 1月25日

PLawBench: A Rubric-Based Benchmark for Evaluating LLMs in Real-World Legal Practice

Arxiv

0+阅读 · 1月23日

OpenLearnLM Benchmark: A Unified Framework for Evaluating Knowledge, Skill, and Attitude in Educational Large Language Models

Arxiv

0+阅读 · 1月20日

Knowledge Graph-Assisted LLM Post-Training for Enhanced Legal Reasoning

Arxiv

0+阅读 · 1月20日

Thinking Longer, Not Always Smarter: Evaluating LLM Capabilities in Hierarchical Legal Reasoning

Arxiv

0+阅读 · 1月20日

A Comprehensive Evaluation of LLM Reasoning: From Single-Model to Multi-Agent Paradigms

Arxiv

0+阅读 · 1月19日

OpenExempt: A Diagnostic Benchmark for Legal Reasoning and a Framework for Creating Custom Benchmarks on Demand

Arxiv

0+阅读 · 1月19日

Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements

Arxiv

0+阅读 · 2025年12月31日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

公钥密码体制的格分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于复杂数据的回归模型统计推断及其应用

国家自然科学基金

3+阅读 · 2015年12月31日

关联规则集上的知识发现

国家自然科学基金

9+阅读 · 2015年12月31日

面向大数据的知识表示、推理、在线学习理论及应用研究

国家自然科学基金

12+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

母血浆胎儿DNA甲基化标记的法医学应用基础研究

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员