波斯语言模型中事实与概念差距的揭示 (Unmasking the Factual-Conceptual Gap in Persian Language Models) - 专知论文

会员服务 ·

0

情境 · 基准 · 偏差 · 识别 · 知识 ·

Unmasking the Factual-Conceptual Gap in Persian Language Models

翻译：波斯语言模型中事实与概念差距的揭示

Alireza Sakhaeirad,Ali Ma'manpoosh,Arshia Hemmat

While emerging Persian NLP benchmarks have expanded into pragmatics and politeness, they rarely distinguish between memorized cultural facts and the ability to reason about implicit social norms. We introduce DivanBench, a diagnostic benchmark focused on superstitions and customs, arbitrary, context-dependent rules that resist simple logical deduction. Through 315 questions across three task types (factual retrieval, paired scenario verification, and situational reasoning), we evaluate seven Persian LLMs and reveal three critical failures: most models exhibit severe acquiescence bias, correctly identifying appropriate behaviors but failing to reject clear violations; continuous Persian pretraining amplifies this bias rather than improving reasoning, often degrading the model's ability to discern contradictions; and all models show a 21\% performance gap between retrieving factual knowledge and applying it in scenarios. These findings demonstrate that cultural competence requires more than scaling monolingual data, as current models learn to mimic cultural patterns without internalizing the underlying schemas.

翻译：尽管新兴的波斯语自然语言处理基准已扩展至语用学和礼貌性研究领域，但它们很少能区分记忆性文化事实与推理隐含社会规范的能力。本文提出DivanBench——一个专注于迷信与习俗的诊断性基准，这些任意且依赖情境的规则难以通过简单逻辑推演解决。通过涵盖三种任务类型（事实检索、配对情境验证及情境推理）的315道问题，我们对七款波斯语大语言模型进行评估，并揭示出三个关键缺陷：多数模型表现出严重的默许偏差，能够正确识别恰当行为却无法拒绝明显的违规情形；持续的波斯语预训练非但未能提升推理能力，反而放大了这种偏差，常常削弱模型识别矛盾的能力；所有模型在检索事实性知识与在情境中应用该知识之间均存在21%的性能差距。这些发现表明，文化能力所需的不只是单语数据的规模扩展，因为当前模型仅学会模仿文化模式，而未能内化其底层认知图式。

0

相关内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【阿姆斯特丹博士论文】在语言模型中寻找结构

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

专知会员服务

67+阅读 · 2024年3月24日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【牛津大学博士论文】量子自然语言处理范畴论，270页pdf

【牛津大学博士论文】量子自然语言处理范畴论，270页pdf

专知会员服务

21+阅读 · 2022年12月16日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理基础：上下文词表征入门解读

自然语言处理基础：上下文词表征入门解读

机器之心

13+阅读 · 2019年3月2日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

人工智能学家

11+阅读 · 2018年1月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

民族传统聚落文化与生态基因信息图谱建模及应用研究 ----以湘黔桂省际边界侗族旅游村寨为例

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Arxiv

0+阅读 · 2月19日

BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models

Arxiv

0+阅读 · 2月13日

The Refutability Gap: Challenges in Validating Reasoning by Large Language Models

Arxiv

0+阅读 · 2月9日

Mind the Gap: Assessing Wiktionary's Crowd-Sourced Linguistic Knowledge on Morphological Gaps in Two Related Languages

Arxiv

0+阅读 · 2月1日

PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian

Arxiv

0+阅读 · 2月1日

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Arxiv

0+阅读 · 1月29日

MasalBench: A Benchmark for Contextual and Cross-Cultural Understanding of Persian Proverbs in LLMs

Arxiv

0+阅读 · 1月29日

Mind the Gap: How Elicitation Protocols Shape the Stated-Revealed Preference Gap in Language Models

Arxiv

0+阅读 · 1月29日

A Computational Approach to Language Contact -- A Case Study of Persian

Arxiv

0+阅读 · 1月28日

Knowing the Facts but Choosing the Shortcut: Understanding How Large Language Models Compare Entities

Arxiv

0+阅读 · 1月24日

VIP会员

文章信息

相关主题

相关VIP内容

大型语言模型的规模效应局限

大型语言模型的规模效应局限

专知会员服务

14+阅读 · 2025年11月18日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

【阿姆斯特丹博士论文】语言模型与人类理解与行为的对齐

专知会员服务

18+阅读 · 2025年7月19日

【阿姆斯特丹博士论文】在语言模型中寻找结构

【阿姆斯特丹博士论文】在语言模型中寻找结构

专知会员服务

26+阅读 · 2024年11月27日

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

涵盖大模型，斯坦福大学《语音与语言处理》最新版：NLP必读书籍，599页pdf

专知会员服务

67+阅读 · 2024年3月24日

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

ChatGPT背后“推理”如何做？浙大等最新《基于语言模型提示的推理》综述，阐述大模型提示推理机制与方法体系

专知会员服务

112+阅读 · 2023年5月6日

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

知识如何用在预训练？北邮等最新《知识增强的预训练语言模型》综述，详述KEPLMs的方法与评估

专知会员服务

58+阅读 · 2022年12月31日

【牛津大学博士论文】量子自然语言处理范畴论，270页pdf

【牛津大学博士论文】量子自然语言处理范畴论，270页pdf

专知会员服务

21+阅读 · 2022年12月16日

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

NLP新范式-预训练，提示(Prompt)，预测！CMU刘鹏飞等论文综述预训练语言模型提示学习进展

专知会员服务

71+阅读 · 2021年7月31日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

智能体记忆深度剖析：评价指标与系统局限性的分类体系及实证分析

《可信人工智能赋能系统的支柱》

【CMU博士论文】可靠轨迹预测的分层基石：数据、评估与方法

人工智能赋能边缘与自主系统：美陆军现代化进程聚焦威胁探测与战术边缘情报

相关资讯

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

16+阅读 · 2019年7月16日

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

中科院自动化所提出 BIFT 模型：面向自然语言生成，同步双向推断

AI科技评论

12+阅读 · 2019年5月2日

深入理解BERT Transformer ，不仅仅是注意力机制

深入理解BERT Transformer ，不仅仅是注意力机制

大数据文摘

22+阅读 · 2019年3月19日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理基础：上下文词表征入门解读

自然语言处理基础：上下文词表征入门解读

机器之心

13+阅读 · 2019年3月2日

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

CMU 邢波教授2019春季《概率图模型》课程开讲，带你学习PGM（含讲义PPT及视频）

专知

51+阅读 · 2019年1月25日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

入门 | 一文了解什么是语义分割及常用的语义分割方法有哪些

机器之心

10+阅读 · 2018年6月4日

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

Facebook人工智能实验室提出「全景分割」，实现实例分割和语义分割的统一

人工智能学家

11+阅读 · 2018年1月6日

自然语言处理中的Attention Model：是什么及为什么

自然语言处理中的Attention Model：是什么及为什么

新智元

11+阅读 · 2017年7月13日

相关论文

Differences in Typological Alignment in Language Models' Treatment of Differential Argument Marking

Arxiv

0+阅读 · 2月19日

BaziQA-Benchmark: Evaluating Symbolic and Temporally Compositional Reasoning in Large Language Models

Arxiv

0+阅读 · 2月13日

The Refutability Gap: Challenges in Validating Reasoning by Large Language Models

Arxiv

0+阅读 · 2月9日

Mind the Gap: Assessing Wiktionary's Crowd-Sourced Linguistic Knowledge on Morphological Gaps in Two Related Languages

Arxiv

0+阅读 · 2月1日

PARSE: An Open-Domain Reasoning Question Answering Benchmark for Persian

Arxiv

0+阅读 · 2月1日

SCALAR: Quantifying Structural Hallucination, Consistency, and Reasoning Gaps in Materials Foundation Models

Arxiv

0+阅读 · 1月29日

MasalBench: A Benchmark for Contextual and Cross-Cultural Understanding of Persian Proverbs in LLMs

Arxiv

0+阅读 · 1月29日

Mind the Gap: How Elicitation Protocols Shape the Stated-Revealed Preference Gap in Language Models

Arxiv

0+阅读 · 1月29日

A Computational Approach to Language Contact -- A Case Study of Persian

Arxiv

0+阅读 · 1月28日

Knowing the Facts but Choosing the Shortcut: Understanding How Large Language Models Compare Entities

Arxiv

0+阅读 · 1月24日

相关基金

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

随机文法作为通用统计模型的扩展

国家自然科学基金

1+阅读 · 2015年12月31日

维吾尔语韵律结构的分析与预测模型的研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

藏文化学术语规范化研究

国家自然科学基金

1+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

民族传统聚落文化与生态基因信息图谱建模及应用研究 ----以湘黔桂省际边界侗族旅游村寨为例

国家自然科学基金

0+阅读 · 2014年12月31日

不确定性推理与语义网中知识表示的数学基础

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员