While recent Arabic NLP benchmarks focus on scale, they often rely on synthetic or translated data which may benefit from deeper linguistic verification. We introduce ALPS (Arabic Linguistic & Pragmatic Suite), a native, expert-curated diagnostic challenge set probing Deep Semantics and Pragmatics, capabilities that complement specialized large-scale benchmarks. While broad-coverage benchmarks prioritize scale and multi-task coverage, ALPS targets the depth of linguistic understanding through 531 rigorously crafted questions across 15 tasks and 47 subtasks. We developed the dataset with deep expertise in Arabic linguistics, guaranteeing cultural authenticity and eliminating translation artifacts. Evaluating 23 diverse models (commercial, open-source, and Arabic-native) against a single-pass human performance (avg. 84.6% accuracy) and an expert-adjudicated oracle (99.2%), we reveal a critical dissociation: models achieve high fluency but fail on fundamental morpho-syntactic dependencies, with elevated error rates on morpho-syntactic dependencies (36.5% across diacritics-reliant tasks) compared to compositional semantics. While top commercial models (Gemini-3-flash at 94.2%) surpass the average single human, a substantial gap persists between commercial giants and Arabic-native models, with the best Arabic-specific model (Jais-2-70B at 83.6%) approaching but not matching human performance.


翻译:尽管近期的阿拉伯语自然语言处理基准测试侧重于规模,但它们通常依赖合成或翻译数据,这些数据可能需要更深入的语言学验证。我们推出了ALPS(阿拉伯语语言与语用测试套件),这是一个由专家精心构建的、基于母语语料的诊断性挑战集,旨在探究深层语义与语用推理能力,这些能力是对现有大规模专业基准测试的重要补充。广泛覆盖的基准测试优先考虑规模和多任务覆盖,而ALPS则通过涵盖15个任务、47个子任务的531道精心设计的问题,聚焦于语言理解的深度。我们凭借深厚的阿拉伯语语言学专业知识开发了该数据集,确保了文化真实性并消除了翻译痕迹。通过评估23个多样化模型(商业、开源及阿拉伯语原生模型),并与单次人类表现(平均准确率84.6%)及专家裁定最优结果(99.2%)进行对比,我们揭示了一个关键分离现象:模型虽能实现高流畅度,却在基础形态句法依存关系上表现不佳,在依赖变音符号的任务中形态句法依存错误率(整体36.5%)显著高于组合语义错误。尽管顶级商业模型(Gemini-3-flash达94.2%)超越了单个人类平均水平,但商业巨头与阿拉伯语原生模型之间仍存在显著差距,最佳阿拉伯语专用模型(Jais-2-70B为83.6%)接近但尚未达到人类表现水平。

0
下载
关闭预览

相关内容

大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
TextInfoExp:自然语言处理相关实验(基于sougou数据集)
全球人工智能
12+阅读 · 2017年11月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
VIP会员
最新内容
超越网格:作战环境对炮兵的影响
专知会员服务
1+阅读 · 今天15:35
KDD 2026 | MixRAGRec:面向LLM推荐的混合专家KG-RAG框架
BES:让语言模型通过双向进化搜索自我改进
专知会员服务
4+阅读 · 5月30日
以色列-美国-伊朗战争中的无人机:关键要点
专知会员服务
4+阅读 · 5月30日
《Palantir任务保障性软件安全标准(MA-S2)》
专知会员服务
14+阅读 · 5月30日
基于声学的无人机检测技术综述
专知会员服务
8+阅读 · 5月30日
《当代混合战争分析框架:俄乌战争经验教训》
相关VIP内容
大型语言模型推理增强外部知识:综述
专知会员服务
38+阅读 · 2025年6月2日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员