This paper presents the participation of team PSL in the QIAS 2026 Shared Task on Arabic Islamic inheritance reasoning. The task evaluates the ability of large language models to solve inheritance cases that require legal interpretation, multi-step reasoning, and precise numerical computation. We compare \textit{commercial} and \textit{open-source} models under a unified prompting strategy to assess their effectiveness in structured legal reasoning with minimal task-specific adaptation. \\ Our results show a clear gap in reliability between the two model families. Commercial models demonstrate stronger performance in identifying eligible heirs, applying exclusion rules, and maintaining consistency across reasoning steps. In contrast, open-source models exhibit greater instability, particularly in cases involving dependent legal decisions and fractional share adjustments. The best performance is achieved by \textit{Gemini 2.5 Flash}, with an MRE of $0.989$.


翻译:本文介绍了PSL团队参与2026年阿拉伯伊斯兰继承推理评测任务(QIAS 2026 Shared Task)的情况。该任务旨在评估大语言模型解决需要法律解释、多步推理和精确数值计算的继承案例的能力。我们在统一提示策略下比较了商业模型和开源模型,以评估其在最小任务特定适配条件下处理结构化法律推理的有效性。研究结果显示两类模型在可靠性方面存在明显差距。商业模型在识别合格继承人、应用排除规则以及保持推理步骤一致性方面表现更强。相比之下,开源模型表现出更大的不稳定性,尤其是在涉及从属法律决策和分数份额调整的案例中。最佳性能由Gemini 2.5 Flash实现,其平均相对误差(MRE)为0.989。

0
下载
关闭预览

相关内容

继承是面向对象软件技术当中的一个概念,与多态、封装共为面向对象的三个基本特征。 继承可以使得子类具有父类的属性和方法或者重新定义、追加属性和方法等。
大模型推理的天花板在哪里?
专知会员服务
16+阅读 · 2025年6月12日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
43+阅读 · 2024年1月25日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
3+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
3+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
4+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
4+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关VIP内容
大模型推理的天花板在哪里?
专知会员服务
16+阅读 · 2025年6月12日
高效推理的集约化探索:大语言模型推理优化综述
专知会员服务
33+阅读 · 2025年4月1日
迈向推理时代:大型语言模型的长链推理研究综述
专知会员服务
46+阅读 · 2025年3月13日
大规模语言模型推理的进展综述
专知会员服务
57+阅读 · 2025年2月8日
大模型数学推理数据合成相关方法
专知会员服务
36+阅读 · 2025年1月19日
大型语言模型在表格推理中的应用综述
专知会员服务
47+阅读 · 2024年2月14日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关资讯
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
基于深度元学习的因果推断新方法
图与推荐
12+阅读 · 2020年7月21日
深度学习模型不确定性方法对比
PaperWeekly
20+阅读 · 2020年2月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员