We introduce AgenticSimLaw, a role-structured, multi-agent debate framework that provides transparent and controllable test-time reasoning for high-stakes tabular decision-making tasks. Unlike black-box approaches, our courtroom-style orchestration explicitly defines agent roles (prosecutor, defense, judge), interaction protocols (7-turn structured debate), and private reasoning strategies, creating a fully auditable decision-making process. We benchmark this framework on young adult recidivism prediction using the NLSY97 dataset, comparing it against traditional chain-of-thought (CoT) prompting across almost 90 unique combinations of models and strategies. Our results demonstrate that structured multi-agent debate provides more stable and generalizable performance compared to single-agent reasoning, with stronger correlation between accuracy and F1-score metrics. Beyond performance improvements, AgenticSimLaw offers fine-grained control over reasoning steps, generates complete interaction transcripts for explainability, and enables systematic profiling of agent behaviors. While we instantiate this framework in the criminal justice domain to stress-test reasoning under ethical complexity, the approach generalizes to any deliberative, high-stakes decision task requiring transparency and human oversight. This work addresses key LLM-based multi-agent system challenges: organization through structured roles, observability through logged interactions, and responsibility through explicit non-deployment constraints for sensitive domains. Data, results, and code will be available on github.com under the MIT license.


翻译:本文提出AgenticSimLaw,一种角色结构化的多智能体辩论框架,为高风险表格决策任务提供透明且可控的测试时推理。区别于黑箱方法,我们的法庭式编排明确定义了智能体角色(公诉人、辩护人、法官)、交互协议(7轮结构化辩论)及私有推理策略,构建出完全可审计的决策流程。我们基于NLSY97数据集,在青年再犯预测任务上对该框架进行基准测试,在近90种模型与策略组合中与传统思维链提示进行对比。实验结果表明,相较于单智能体推理,结构化多智能体辩论能提供更稳定且可泛化的性能,其准确率与F1分数指标间呈现更强的相关性。除性能提升外,AgenticSimLaw支持对推理步骤的细粒度控制,生成完整的交互记录以实现可解释性,并能对智能体行为进行系统性分析。虽然我们在刑事司法领域实例化该框架以检验伦理复杂性下的推理能力,但该方法可泛化至任何需要透明度与人工监督的审议型高风险决策任务。本研究针对基于大语言模型的多智能体系统核心挑战提出解决方案:通过结构化角色实现组织化,通过交互日志实现可观测性,并通过敏感领域显式非部署约束实现责任界定。相关数据、结果与代码将在github.com以MIT许可证开源。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
Agent建模讲义:复杂系统与Agent模型
专知会员服务
81+阅读 · 2024年4月24日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
智能体评判者(Agent-as-a-Judge)研究综述
专知会员服务
37+阅读 · 1月9日
智能体工程(Agent Engineering)
专知会员服务
27+阅读 · 2025年12月31日
多智能体协作机制:大语言模型综述
专知会员服务
84+阅读 · 2025年1月14日
Agent建模讲义:复杂系统与Agent模型
专知会员服务
81+阅读 · 2024年4月24日
AI Agent,大模型时代重要落地方向, 42页ppt
专知会员服务
290+阅读 · 2023年10月12日
AI Agent:基于大模型的自主智能体
专知会员服务
248+阅读 · 2023年9月9日
相关资讯
面向多智能体博弈对抗的对手建模框架
专知
18+阅读 · 2022年9月28日
智能合约的形式化验证方法研究综述
专知
16+阅读 · 2021年5月8日
浅谈群体智能——新一代AI的重要方向
中国科学院自动化研究所
44+阅读 · 2019年10月16日
智能时代如何构建金融反欺诈体系?
数据猿
12+阅读 · 2018年3月26日
群体智能:新一代人工智能的重要方向
走向智能论坛
12+阅读 · 2017年8月16日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
10+阅读 · 2013年12月31日
国家自然科学基金
20+阅读 · 2013年12月31日
国家自然科学基金
18+阅读 · 2009年12月31日
国家自然科学基金
17+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员