Despite rapid advances in large language models (LLMs), achieving reliable performance on highly professional and structured examinations remains a significant challenge. The Japanese bar examination is a particularly demanding benchmark, requiring not only advanced legal reasoning but also strict adherence to complex answer formats that involve joint evaluation of multiple propositions. While recent studies have reported improvements by decomposing such questions into simpler true--false judgments, these approaches have not been systematically evaluated under the original exam format and scoring scheme, leaving open the question of whether they truly capture exam-level competence. In this paper, we present a self-verification model trained on a newly constructed dataset that faithfully replicates the authentic format and evaluation scale of the exam. Our model is able to exceed the official passing score when evaluated on the actual exam scale, marking the first demonstration, to our knowledge, of an LLM passing the Japanese bar examination without altering its original question structure or scoring rules. We further conduct extensive comparisons with alternative strategies, including multi-agent inference and decomposition-based supervision, and find that these methods fail to achieve comparable performance. Our results highlight the importance of format-faithful supervision and consistency verification, and suggest that carefully designed single-model approaches can outperform more complex systems in high-stakes professional reasoning tasks. Our dataset and codes are publicly available.


翻译:尽管大型语言模型(LLM)发展迅速,但在高度专业化和结构化的考试中实现可靠性能仍是一个重大挑战。日本司法考试是一个要求极高的基准测试,不仅需要高级的法律推理能力,还必须严格遵守涉及多个命题联合评估的复杂答题格式。虽然最近的研究报告称,通过将此类问题分解为更简单的真假判断可以提升表现,但这些方法尚未在原始考试格式和评分方案下进行系统评估,因此它们是否真正掌握了考试级别的能力仍是一个悬而未决的问题。本文提出了一种基于新构建数据集训练的自验证模型,该数据集忠实地复现了考试的真实格式和评估标准。我们的模型在实际考试标准下评估时能够超过官方及格分数,据我们所知,这是首次证明LLM在不改变原始问题结构或评分规则的情况下通过日本司法考试。我们进一步与多种替代策略进行了广泛比较,包括多智能体推理和基于分解的监督方法,发现这些方法均无法达到可比的性能。我们的结果凸显了格式忠实监督和一致性验证的重要性,并表明在高压力的专业推理任务中,精心设计的单模型方法可以超越更复杂的系统。我们的数据集和代码已公开提供。

0
下载
关闭预览

相关内容

日本国位于东亚,是由日本列岛(北海道·本州·四国·九州及其相关岛屿),及南西诸岛,小笠原诸岛等众岛屿组成的岛国。国土面积377,961,73k㎡(62位)。人口总数一亿2688万人(2015年)(10位)。公用语,日本语。国歌,《君が代》,首都,东京都。
Auto-Keras与AutoML:入门指南
云栖社区
18+阅读 · 2019年2月9日
论文浅尝 | Interaction Embeddings for Prediction and Explanation
开放知识图谱
11+阅读 · 2019年2月1日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员