The gap between static benchmarks and the dynamic nature of real-world legal practice poses a key barrier to advancing legal intelligence. To this end, we introduce J1-ENVS, the first interactive and dynamic legal environment tailored for LLM-based agents. Guided by legal experts, it comprises six representative scenarios from Chinese legal practices across three levels of environmental complexity. We further introduce J1-EVAL, a fine-grained evaluation framework, designed to assess both task performance and procedural compliance across varying levels of legal proficiency. Extensive experiments on 17 LLM agents reveal that, while many models demonstrate solid legal knowledge, they struggle with procedural execution in dynamic settings. Even the SOTA model, GPT-4o, falls short of 60% overall performance. These findings highlight persistent challenges in achieving dynamic legal intelligence and offer valuable insights to guide future research.


翻译:静态基准测试与现实法律实践的动态特性之间的差距,是推进法律智能发展的关键障碍。为此,我们提出了J1-ENVS,这是首个为基于大语言模型(LLM)的智能体量身定制的交互式动态法律环境。在法律专家的指导下,该环境包含来自中国法律实践的六个代表性场景,涵盖三个环境复杂度层级。我们进一步提出了J1-EVAL,一个细粒度的评估框架,旨在评估不同法律熟练程度下的任务执行表现与程序合规性。对17个LLM智能体的大量实验表明,尽管许多模型展现出扎实的法律知识,但在动态环境下的程序执行方面仍存在困难。即使是当前最先进的模型GPT-4o,其综合表现也未达到60%。这些发现凸显了实现动态法律智能所面临的持续挑战,并为未来的研究提供了有价值的见解。

0
下载
关闭预览

相关内容

法律是国家制定或认可的,由国家强制力保证实施的,以规定权利和义务为内容的具有普遍约束力的社会规范。
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
大语言模型遇见法律人工智能:综述
专知会员服务
25+阅读 · 2025年9月15日
大语言模型智能体的评估与基准:综述
专知会员服务
46+阅读 · 2025年7月31日
大语言模型智能体
专知会员服务
97+阅读 · 2024年12月25日
一文读懂最强中文NLP预训练模型ERNIE
AINLP
25+阅读 · 2019年10月22日
法小飞:智能法律咨询助手
哈工大SCIR
33+阅读 · 2018年10月20日
一文读懂智能对话系统
数据派THU
16+阅读 · 2018年1月27日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Arxiv
0+阅读 · 1月8日
VIP会员
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
28+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
55+阅读 · 2011年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员