QFrBLiMP：魁北克法语语言最小对比对基准 (QFrBLiMP: a Quebec-French Benchmark of Linguistic Minimal Pairs) - 专知论文

会员服务 ·

0

比对 · 基准 · 标注 · 语言模型 · 大语言模型 ·

QFrBLiMP: a Quebec-French Benchmark of Linguistic Minimal Pairs

翻译：QFrBLiMP：魁北克法语语言最小对比对基准

David Beauchemin,Pier-Luc Veilleux,Johanna-Pascale Roy,Richard Khoury

from arxiv, Acceptged to EACL 2026

In this paper, we introduce the Quebec-French Benchmark of Linguistic Minimal Pairs (QFrBLiMP), a corpus designed to evaluate LLMs' linguistic knowledge of prominent grammatical phenomena in Quebec-French. QFrBLiMP comprises 1,761 minimal pairs annotated with 20 LPs. Specifically, these minimal pairs have been created by manually modifying sentences extracted from an official online resource maintained by a Québec government institution. Each pair is annotated by 12 Quebec-French native speakers, who select the sentence they consider grammatical from the two. These annotations are used to compare the competency of LLMs with that of humans. We evaluate different LLMs on QFrBLiMP and MultiBLiMP-Fr by observing the rate of higher probabilities assigned to the sentences of each minimal pair for each category. We find that while grammatical competence scales with model size, a clear hierarchy of difficulty emerges. All benchmarked models consistently fail on phenomena requiring deep semantic understanding, revealing a critical limitation. Finally, our statistical analysis comparing QFrBLiMP and MultiBLiMP reveals a significant performance degradation for most models on Quebec-French; however, the most capable models remain within the statistical significance interval, demonstrating cross-dialectal robustness.

翻译：本文介绍了魁北克法语语言最小对比对基准（QFrBLiMP），该语料库旨在评估大语言模型对魁北克法语中主要语法现象的语言学知识。QFrBLiMP包含1,761个最小对比对，标注了20种语言现象。具体而言，这些最小对比对是通过人工修改从一个魁北克政府机构维护的官方在线资源中提取的句子而创建的。每个对比对由12名魁北克法语母语者进行标注，他们从两个句子中选择他们认为符合语法的句子。这些标注用于比较大语言模型与人类的能力。我们通过观察每个模型在各个类别的最小对比对中为句子分配更高概率的比率，评估了不同大语言模型在QFrBLiMP和MultiBLiMP-Fr上的表现。我们发现，虽然语法能力随模型规模提升而增强，但存在明显的难度层级。所有基准模型在需要深度语义理解的现象上均持续失败，揭示了一个关键局限。最后，我们对QFrBLiMP和MultiBLiMP的统计分析表明，大多数模型在魁北克法语上的性能显著下降；然而，能力最强的模型仍保持在统计显著性区间内，展现了跨方言稳健性。

0

相关内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

8+阅读 · 2025年5月18日

Phi-4：微软最新的小型语言模型，专注于复杂推理

Phi-4：微软最新的小型语言模型，专注于复杂推理

专知会员服务

25+阅读 · 2024年12月14日

通过对比学习提高基于知识对话的鲁棒性

通过对比学习提高基于知识对话的鲁棒性

专知会员服务

23+阅读 · 2024年1月10日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【CVPR2022】语言作为查询的参考视频目标分割框架

【CVPR2022】语言作为查询的参考视频目标分割框架

专知会员服务

10+阅读 · 2022年4月27日

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

专知会员服务

17+阅读 · 2020年5月19日

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

TurkBench: A Benchmark for Evaluating Turkish Large Language Models

Arxiv

0+阅读 · 2月3日

Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception

Arxiv

0+阅读 · 1月26日

ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

Arxiv

0+阅读 · 1月19日

BLUCK: A Benchmark Dataset for Bengali Linguistic Understanding and Cultural Knowledge

Arxiv

0+阅读 · 1月19日

Afri-MCQA: Multimodal Cultural Question Answering for African Languages

Arxiv

0+阅读 · 1月14日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

TurkBench: A Benchmark for Evaluating Turkish Large Language Models

Arxiv

0+阅读 · 1月11日

Qomhra: A Bilingual Irish and English Large Language Model

Arxiv

0+阅读 · 1月8日

Qomhra: A Bilingual Irish and English Large Language Model

Arxiv

0+阅读 · 1月7日

Qomhra: A Bilingual Irish and English Large Language Model

Qomhra: A Bilingual Irish and English Large Language Model

Arxiv

0+阅读 · 1月6日

VIP会员

文章信息

相关主题

大语言模型

相关VIP内容

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

【EMNLP2025最佳论文】INFINI-GRAM MINI：基于 FM-Index 的互联网级精确 n-gram 搜索

专知会员服务

13+阅读 · 2025年11月9日

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

语言模型如何重塑实体对齐？语言模型驱动实体对齐的进展、基准与未来

专知会员服务

8+阅读 · 2025年11月2日

大语言模型基准综述

大语言模型基准综述

专知会员服务

25+阅读 · 2025年8月22日

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

如何对齐？北大最新271页ICML2025教程《语言模型的对齐方法：一种机器学习视角》

专知会员服务

47+阅读 · 2025年7月16日

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

【ICML2025】FG-CLIP：细粒度视觉与文本对齐

专知会员服务

8+阅读 · 2025年5月18日

Phi-4：微软最新的小型语言模型，专注于复杂推理

Phi-4：微软最新的小型语言模型，专注于复杂推理

专知会员服务

25+阅读 · 2024年12月14日

通过对比学习提高基于知识对话的鲁棒性

通过对比学习提高基于知识对话的鲁棒性

专知会员服务

23+阅读 · 2024年1月10日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

25+阅读 · 2022年7月8日

【CVPR2022】语言作为查询的参考视频目标分割框架

【CVPR2022】语言作为查询的参考视频目标分割框架

专知会员服务

10+阅读 · 2022年4月27日

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

【ACL2020】Span-ConveRT：预训练对话表示小样本跨度提取，Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

专知会员服务

17+阅读 · 2020年5月19日

热门VIP内容

开通专知VIP会员享更多权益服务

【CMU博士论文】基于自适应表征的高效视觉建模

《多域作战中融合网络、电子战与动能机动》

AI智能体时代大模型安全风险与攻防新挑战

迈向个性化大语言模型驱动的智能体：基础、评估与未来方向

相关资讯

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

【MIT-伯克利-ICLR2020】对比表示蒸馏，Contrastive Representation Distillation

专知

54+阅读 · 2020年3月12日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

NLP中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert

AINLP

31+阅读 · 2019年6月1日

语音情绪识别|声源增强|基频可视化

语音情绪识别|声源增强|基频可视化

深度学习每日摘要

15+阅读 · 2019年5月5日

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

中文分词工具在线PK新增：FoolNLTK、LTP、StanfordCoreNLP

AINLP

13+阅读 · 2019年5月5日

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

北大、清华、微软联合提出RepPoints，比边界框更好用的目标检测方法

全球人工智能

13+阅读 · 2019年4月30日

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

《小样本学习(Few-shot learning)》最新41页综述论文，来自港科大和第四范式

专知

363+阅读 · 2019年4月12日

收藏 | 中文公开聊天语料库及使用方法（附链接）

收藏 | 中文公开聊天语料库及使用方法（附链接）

THU数据派

10+阅读 · 2019年3月12日

中文NLP福利！大规模中文自然语言处理语料

中文NLP福利！大规模中文自然语言处理语料

新智元

37+阅读 · 2019年2月13日

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

准确率秒杀结巴分词，北大开源全新中文分词工具包PKUSeg

大数据技术

16+阅读 · 2019年1月15日

相关论文

TurkBench: A Benchmark for Evaluating Turkish Large Language Models

Arxiv

0+阅读 · 2月3日

Q-Bench-Portrait: Benchmarking Multimodal Large Language Models on Portrait Image Quality Perception

Arxiv

0+阅读 · 1月26日

ToxiFrench: Benchmarking and Enhancing Language Models via CoT Fine-Tuning for French Toxicity Detection

Arxiv

0+阅读 · 1月19日

BLUCK: A Benchmark Dataset for Bengali Linguistic Understanding and Cultural Knowledge

Arxiv

0+阅读 · 1月19日

Afri-MCQA: Multimodal Cultural Question Answering for African Languages

Arxiv

0+阅读 · 1月14日

IndicParam: Benchmark to evaluate LLMs on low-resource Indic Languages

Arxiv

0+阅读 · 1月12日

TurkBench: A Benchmark for Evaluating Turkish Large Language Models

Arxiv

0+阅读 · 1月11日

Qomhra: A Bilingual Irish and English Large Language Model

Arxiv

0+阅读 · 1月8日

Qomhra: A Bilingual Irish and English Large Language Model

Arxiv

0+阅读 · 1月7日

Qomhra: A Bilingual Irish and English Large Language Model

Qomhra: A Bilingual Irish and English Large Language Model

Arxiv

0+阅读 · 1月6日

相关基金

基于形态和多词的有限语料蒙汉互译调序优化方法

国家自然科学基金

0+阅读 · 2015年12月31日

高准度二代测序比对算法

国家自然科学基金

3+阅读 · 2015年12月31日

基于犹豫模糊语言信息的定性决策理论与方法

国家自然科学基金

2+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

动态Gr？bner 基与GVW算法

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语命名实体间语义关系抽取理论方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究

国家自然科学基金

0+阅读 · 2014年12月31日

维吾尔语单元集优化关键技术研究及其在语音识别中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于字典学习的小样本高光谱遥感图像稀疏表示分类精度研究与应用

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员