Physical commonsense reasoning represents a fundamental capability of human intelligence, enabling individuals to understand their environment, predict future events, and navigate physical spaces. Recent years have witnessed growing interest in reasoning tasks within Natural Language Processing (NLP). However, no prior research has examined the performance of Large Language Models (LLMs) on non-question-answering (non-QA) physical commonsense reasoning tasks in low-resource languages such as Basque. Taking the Italian GITA as a starting point, this paper addresses this gap by presenting BasPhyCo, the first non-QA physical commonsense reasoning dataset for Basque, available in both standard and dialectal variants. We evaluate model performance across three hierarchical levels of commonsense understanding: (1) distinguishing between plausible and implausible narratives (accuracy), (2) identifying the conflicting element that renders a narrative implausible (consistency), and (3) determining the specific physical state that creates the implausibility (verifiability). These tasks were assessed using multiple multilingual LLMs as well as models pretrained specifically for Italian and Basque. Results indicate that, in terms of verifiability, LLMs exhibit limited physical commonsense capabilities in low-resource languages such as Basque, especially when processing dialectal variants.


翻译:物理常识推理代表了人类智能的一项基本能力,使个体能够理解其环境、预测未来事件并在物理空间中导航。近年来,自然语言处理领域对推理任务的兴趣日益增长。然而,尚无先前研究考察大型语言模型在巴斯克语等低资源语言的非问答式物理常识推理任务上的表现。本文以意大利语GITA数据集为起点,通过提出BasPhyCo来填补这一空白,这是首个面向巴斯克语的非问答式物理常识推理数据集,同时提供标准语和方言变体。我们在三个层次的常识理解上评估模型性能:(1) 区分合理与不合理叙述(准确性),(2) 识别导致叙述不合理的冲突元素(一致性),以及(3) 确定造成不合理性的具体物理状态(可验证性)。这些任务通过使用多种多语言LLM以及专门针对意大利语和巴斯克语预训练的模型进行评估。结果表明,就可验证性而言,LLM在巴斯克语等低资源语言中展现出有限的物理常识能力,尤其是在处理方言变体时。

0
下载
关闭预览

相关内容

大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
【博士论文】《自然语言处理中的因果推理》
专知会员服务
22+阅读 · 2025年4月25日
【HKUST 博士论文】常识知识表示、推理与应用
专知会员服务
25+阅读 · 2025年2月17日
【博士论文】推理的表示学习:跨多样结构的泛化
专知会员服务
27+阅读 · 2024年10月20日
常识问答研究综述
专知会员服务
35+阅读 · 2023年8月19日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
【港科大博士论文】高效迁移学习的低资源自然语言理解
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Arxiv
83+阅读 · 2023年3月26日
VIP会员
相关VIP内容
大语言模型的智能体化推理
专知会员服务
32+阅读 · 1月21日
【博士论文】《自然语言处理中的因果推理》
专知会员服务
22+阅读 · 2025年4月25日
【HKUST 博士论文】常识知识表示、推理与应用
专知会员服务
25+阅读 · 2025年2月17日
【博士论文】推理的表示学习:跨多样结构的泛化
专知会员服务
27+阅读 · 2024年10月20日
常识问答研究综述
专知会员服务
35+阅读 · 2023年8月19日
「大型语言模型推理」综述
专知会员服务
95+阅读 · 2022年12月24日
【港科大博士论文】高效迁移学习的低资源自然语言理解
相关资讯
【综述论文】2020年最新深度学习自然语言处理进展综述论文!!!
深度学习自然语言处理
13+阅读 · 2020年4月6日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
自然语言处理精品资料
人工智能前沿讲习班
14+阅读 · 2019年3月13日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
关系推理:基于表示学习和语义要素
计算机研究与发展
19+阅读 · 2017年8月22日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
10+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员