As agents grow more capable, legal-domain LLM agents promise to turn document-heavy matters into reviewable work products -- yet reliable deployment faces three obstacles: no large-scale evidence on how today's strongest model-and-harness combinations behave on end-to-end legal matters; no agent architecture adapted to the legal vertical, only general-purpose harnesses; and, in a setting that keeps shifting with new facts, authorities, and deadlines, no mechanism for systems to learn from their own outcomes. We address each. A large-scale empirical study on Harvey LAB -- $12{,}510$ agent trajectories -- shows that even frontier agents remain far from completing matters in a single pass: per-criterion accuracy climbs with stronger models while strict matter completion stalls. We then introduce \textsc{Parthenon}, a self-evolving legal-agent framework that factors Model, Harness, Agent roles, legal Knowledge, deterministic Tools, and procedural Skills into auditable surfaces for source traceability, date and number grounding, deliverable compliance, and issue closure. Finally, an anti-leakage learning loop converts scored failures into task-agnostic edits to skills, tools, and knowledge, letting the system improve with experience -- as a firm refines its checklists and playbooks after each matter -- without touching model weights. Across our large-scale empirical analysis, \textsc{Parthenon} substantially improves the performance of state-of-the-art models and harnesses on legal-matter tasks.


翻译:随着智能体能力的增强,法律领域的大语言模型智能体有望将文档密集型事务转化为可审查的工作成果——然而,可靠部署面临三大障碍:缺乏大规模证据表明当前最强模型与框架组合在端到端法律事务中的表现;缺乏适配法律垂直领域的智能体架构,仅有通用框架;在随新事实、权威判例和截止日期不断变化的环境中,缺乏让系统从自身成果中学习的机制。本文逐一解决这些问题。基于Harvey LAB的大规模实证研究(包含12,510条智能体轨迹)显示,即便是前沿智能体在单次执行中仍远未完成事务:按标准衡量的准确率随模型能力增强而提升,但严格的事务完成率停滞不前。我们提出帕特农(\textsc{Parthenon})——一种自进化的法律智能体框架,将模型(Model)、框架(Harness)、智能体角色(Agent)、法律知识(Knowledge)、确定性工具(Tools)和程序性技能(Skills)分解为可审计的模块,实现源追溯、日期与数字锚定、交付物合规及议题闭合。最后,反泄露学习循环将评分失败案例转化为任务无关的技能、工具和知识编辑,使系统像律所在每项事务后完善检查清单和办案手册一样,通过经验持续改进,而无需修改模型权重。在大规模实证分析中,\textsc{Parthenon}显著提升了最先进模型和框架在法律事务任务上的性能。

0
下载
关闭预览

相关内容

法律是国家制定或认可的,由国家强制力保证实施的,以规定权利和义务为内容的具有普遍约束力的社会规范。
AgentOps综述:智能体系统运维框架
专知会员服务
18+阅读 · 6月4日
多智能体协作机制
专知会员服务
23+阅读 · 4月25日
AI 智能体系统:体系架构、应用场景及评估范式
《大模型驱动的汽车行业群体智能技术白皮书》,176页pdf
【普林斯顿】基于大型语言模型的语言智能体认知架构
专知会员服务
77+阅读 · 2023年9月6日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
28+阅读 · 2022年2月27日
《人工智能安全测评白皮书》,99页pdf
专知
36+阅读 · 2022年2月26日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
【知识图谱】知识图谱+人工智能=新型网络信息体系
产业智能官
14+阅读 · 2018年11月18日
法小飞:智能法律咨询助手
哈工大SCIR
33+阅读 · 2018年10月20日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
39+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
21+阅读 · 2013年12月31日
国家自然科学基金
39+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员