The Measurement Gap in the Automation of EU Law: Benchmarking Doctrinal Legal Reasoning under the EU AI Act - 专知论文

会员服务 ·

0

法律 · 基准 · 人工智能法案 · 基准测试 · 自动化 ·

The Measurement Gap in the Automation of EU Law: Benchmarking Doctrinal Legal Reasoning under the EU AI Act

翻译：欧盟法律自动化中的测量缺口：欧盟《人工智能法案》下法律教义推理的基准测试

Large language models now produce legal text of at least median quality, yet no existing benchmark can evaluate whether they perform doctrinal legal reasoning, which forms the interpretive core of legal work, rather than the ancillary, paralegal tasks that most current legal-AI evaluations measure. This measurement gap is not only methodological but legal: the EU AI Act makes "appropriate accuracy" a binding requirement for high-risk AI used in the judicial domain, yet that requirement cannot acquire operational content without the very doctrinal-reasoning benchmark the field lacks.

翻译：大语言模型如今生成的法律文本至少达到中等质量，但现有基准均无法评估其是否具备法律教义推理能力——这一能力构成法律工作的解释性核心，而非当前大多数法律人工智能评估所衡量的辅助性法务辅助任务。这一测量缺口不仅是方法论层面的，更是法律层面的：欧盟《人工智能法案》将“适当准确性”作为司法领域高风险人工智能的约束性要求，然而若缺乏该领域亟需的法律教义推理基准，该要求便无法获得可操作的具体内涵。

0

相关内容

法律是国家制定或认可的，由国家强制力保证实施的，以规定权利和义务为内容的具有普遍约束力的社会规范。

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

专知会员服务

93+阅读 · 2024年6月15日

【NeurIPS 2023】语言模型、智能体模型和世界模型：机器推理和规划的LAW法则

【NeurIPS 2023】语言模型、智能体模型和世界模型：机器推理和规划的LAW法则

专知会员服务

73+阅读 · 2023年12月12日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

专知会员服务

19+阅读 · 2022年5月4日

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

专知会员服务

64+阅读 · 2022年4月25日

人工智能与法律结合的现状及发展趋势

专知会员服务

64+阅读 · 2021年4月16日

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

53+阅读 · 2022年11月14日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AINLP

24+阅读 · 2018年11月30日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

Arxiv

0+阅读 · 6月16日

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Arxiv

0+阅读 · 6月14日

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Arxiv

0+阅读 · 6月13日

Parthenon Law: A Self-Evolving Legal-Agent Framework

Arxiv

0+阅读 · 6月11日

Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks

Arxiv

0+阅读 · 6月3日

Fundamental Limitation in Explaining AI

Arxiv

0+阅读 · 5月31日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

ReasonOps: A Unified Operational Paradigm for Trustworthy Verified LLM Reasoning

Arxiv

0+阅读 · 5月26日

HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding

Arxiv

0+阅读 · 5月15日

Falkor-IRAC: Graph-Constrained Generation for Verified Legal Reasoning in Indian Judicial AI

Arxiv

0+阅读 · 5月14日

VIP会员

文章信息

相关主题

人工智能法案

最新内容

综述 | 从问答到任务完成：Agent系统与Harness设计

综述 | 从问答到任务完成：Agent系统与Harness设计

专知会员服务

3+阅读 · 6月24日

Agentic RL：框架、实践与长程智能体训练

Agentic RL：框架、实践与长程智能体训练

专知会员服务

2+阅读 · 6月24日

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

8+阅读 · 6月24日

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

6+阅读 · 6月24日

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

5+阅读 · 6月24日

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

5+阅读 · 6月24日

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

6+阅读 · 6月24日

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

5+阅读 · 6月24日

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

7+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

6+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

9+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

8+阅读 · 6月23日

相关VIP内容

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

法律领域中的大语言模型智能体：分类体系、应用场景与挑战

专知会员服务

17+阅读 · 1月14日

大模型数学推理数据合成相关方法

大模型数学推理数据合成相关方法

专知会员服务

36+阅读 · 2025年1月19日

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

GPT文本如何检测？《检测AI生成文本：影响当前方法检测能力的因素》最新综述

专知会员服务

24+阅读 · 2024年7月3日

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

国家标准《人工智能预训练模型第2 部分：评测指标与方法》

专知会员服务

93+阅读 · 2024年6月15日

【NeurIPS 2023】语言模型、智能体模型和世界模型：机器推理和规划的LAW法则

【NeurIPS 2023】语言模型、智能体模型和世界模型：机器推理和规划的LAW法则

专知会员服务

73+阅读 · 2023年12月12日

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

大模型哪家强？清华最新《大语言模型综合性能评估报告》权威评测，26页ppt

专知会员服务

158+阅读 · 2023年8月8日

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

语言模型如何做算法推理？Google Hattie Zhou《通过语境学习来教算法推理》，附Slides与论文

专知会员服务

27+阅读 · 2023年3月10日

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

【AI+ 法律】2022最新博士论文《改进法律文本处理中的注意力神经网络》日本科学技术高等研究院

专知会员服务

19+阅读 · 2022年5月4日

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

AI如何用于法律？里斯本等学者最新《人工智能法律应用》全面阐述深度法律文本分析

专知会员服务

64+阅读 · 2022年4月25日

人工智能与法律结合的现状及发展趋势

专知会员服务

64+阅读 · 2021年4月16日

热门VIP内容

开通专知VIP会员享更多权益服务

Agentic RL：框架、实践与长程智能体训练

重新思考无人机时代的生存能力

综述 | 从问答到任务完成：Agent系统与Harness设计

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

相关资讯

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

推荐！《用于兵棋推演和建模的人工智能》兰德、耶鲁大学2022最新16页论文

专知

53+阅读 · 2022年11月14日

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

【AI+军事】《用于威胁评估的人工智能工具》加拿大国防研究和发展部技术报告，附中文版pdf

专知

92+阅读 · 2022年4月17日

《人工智能安全测评白皮书》，99页pdf

《人工智能安全测评白皮书》，99页pdf

专知

36+阅读 · 2022年2月26日

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

【NIPS2019】Infidelity and Sensitivity：模型可解释性方法的定量评估

AINLP

19+阅读 · 2020年6月14日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

机器推理系列文章概览：七大NLP任务最新方法与进展

机器推理系列文章概览：七大NLP任务最新方法与进展

AI100

12+阅读 · 2019年9月15日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

让智能体主动交互，DeepMind提出用元强化学习实现因果推理

机器之心

17+阅读 · 2019年2月11日

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AI赋能法律 | NLP最强之谷歌BERT模型在智能司法领域的实践浅谈

AINLP

24+阅读 · 2018年11月30日

专栏 | NLP概述和文本自动分类算法详解

专栏 | NLP概述和文本自动分类算法详解

机器之心

12+阅读 · 2018年7月24日

相关论文

EngTrace: A Symbolic Benchmark for Verifiable Process Supervision of Engineering Reasoning

Arxiv

0+阅读 · 6月16日

Less is More: Improving LLM Reasoning with Minimal Test-Time Intervention

Arxiv

0+阅读 · 6月14日

Mask-Proof: An LLM-based Automated Data Curation Pipeline on Mathematical Proofs

Arxiv

0+阅读 · 6月13日

Parthenon Law: A Self-Evolving Legal-Agent Framework

Arxiv

0+阅读 · 6月11日

Testing LLM Arithmetic Reasoning Generalization with Automatic Numeric-Remapping Attacks

Arxiv

0+阅读 · 6月3日

Fundamental Limitation in Explaining AI

Arxiv

0+阅读 · 5月31日

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

Arxiv

0+阅读 · 5月26日

ReasonOps: A Unified Operational Paradigm for Trustworthy Verified LLM Reasoning

Arxiv

0+阅读 · 5月26日

HAI-Eval: Measuring Human-AI Synergy in Collaborative Coding

Arxiv

0+阅读 · 5月15日

Falkor-IRAC: Graph-Constrained Generation for Verified Legal Reasoning in Indian Judicial AI

Arxiv

0+阅读 · 5月14日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率计算的大规模MIMO检测方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于格值逻辑的语言真值α-群锁语义归结自动推理研究

国家自然科学基金

0+阅读 · 2015年12月31日

无人驾驶车辆智能测试评估与环境设计

国家自然科学基金

28+阅读 · 2014年12月31日

中文句子语义概念图自动构建方法及应用研究

国家自然科学基金

3+阅读 · 2014年12月31日

线性时序关系下推理的概率计量化模型

国家自然科学基金

0+阅读 · 2014年12月31日

基于深度学习的机器译文质量估计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

面向汉语文本理解的语义计算方法

国家自然科学基金

8+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员