A large-scale evaluation of commonsense knowledge in humans and large language models - 专知论文

会员服务 ·

0

知识 · 常识知识 · AI · 语言模型 · 大语言模型 ·

A large-scale evaluation of commonsense knowledge in humans and large language models

翻译：大规模评估人类与大型语言模型中的常识知识

Tuan Dung Nguyen,Duncan J. Watts,Mark E. Whiting

from arxiv, Code and data: https://github.com/Watts-Lab/commonsense-llm-eval

Commonsense knowledge, a major constituent of artificial intelligence (AI), is primarily evaluated in practice by human-prescribed ground-truth labels. An important, albeit implicit, assumption of these labels is that they accurately capture what any human would think, effectively treating human common sense as homogeneous. However, recent empirical work has shown that humans vary enormously in what they consider commonsensical; thus what appears self-evident to one benchmark designer may not be so to another. Here, we propose a method for assessing commonsense knowledge in AI, specifically in large language models (LLMs), that incorporates empirically observed heterogeneity among humans by measuring the correspondence between a model's judgment and that of a human population. We first find that, when treated as independent survey respondents, most LLMs remain below the human median in their individual commonsense competence. Second, when used as simulators of a hypothetical population, LLMs correlate with real humans only modestly in the extent to which they agree on the same set of statements. In both cases, smaller, open-weight models are surprisingly more competitive than larger, proprietary frontier models. Our evaluation framework, which ties commonsense knowledge to its cultural basis, contributes to the growing call for adapting AI models to human collectivities that possess different, often incompatible, social stocks of knowledge.

翻译：常识知识作为人工智能（AI）的重要组成部分，在实践中主要通过人工预设的真实标签进行评估。这些标签隐含着一个重要假设：它们能准确捕捉任何人类的认知，从而将人类常识视为同质的。然而，最近的实证研究表明，人类对于何为常识存在巨大差异；因此，对一位基准设计者而言不言自明的事实，对另一位可能并非如此。本文提出一种评估AI（特别是大型语言模型（LLMs））中常识知识的方法，该方法通过衡量模型判断与人类群体判断之间的一致性，纳入实证观察到的人类异质性。我们首先发现，当被视为独立的调查受访者时，大多数LLMs在个体常识能力上仍低于人类中位数水平。其次，当用作假设群体的模拟器时，LLMs在相同陈述集上的认同程度与真实人类的相关性仅处于中等水平。在这两种情况下，较小型的开源权重模型的表现出人意料地优于较大型的专有前沿模型。我们的评估框架将常识知识与其文化基础相联系，响应了日益增长的呼吁：使AI模型适应那些拥有不同且往往互不相容的社会知识储备的人类群体。

0

相关内容

LLMS4ALL：大语言模型在各学科科研与应用中的综述

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

36+阅读 · 2025年10月4日

【AAAI2025教程】大型语言模型中的知识生命周期：记忆、编辑与超越，216页ppt

【AAAI2025教程】大型语言模型中的知识生命周期：记忆、编辑与超越，216页ppt

专知会员服务

39+阅读 · 2025年3月1日

【HKUST 博士论文】常识知识表示、推理与应用

【HKUST 博士论文】常识知识表示、推理与应用

专知会员服务

25+阅读 · 2025年2月17日

大规模语言模型中的知识机制：综述与展望

大规模语言模型中的知识机制：综述与展望

专知会员服务

56+阅读 · 2024年7月26日

专题综述 | 大语言模型中的知识生命周期

专题综述 | 大语言模型中的知识生命周期

专知会员服务

60+阅读 · 2024年4月16日

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

专知会员服务

193+阅读 · 2023年6月19日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

370+阅读 · 2023年4月3日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

常识如何用？WSDM2021「常识知识」这份教程讲述常识提取、方法与评估，附170页ppt与视频

常识如何用？WSDM2021「常识知识」这份教程讲述常识提取、方法与评估，附170页ppt与视频

专知会员服务

35+阅读 · 2021年3月12日

集大成者！经典书《知识表示学习》，1035页pdf系统性讲解人工智能知识表示与推理基础、算法与应用

集大成者！经典书《知识表示学习》，1035页pdf系统性讲解人工智能知识表示与推理基础、算法与应用

专知会员服务

155+阅读 · 2020年11月20日

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

34+阅读 · 2022年7月31日

常识知识图谱如何用在计算机视觉?华盛顿大学Yejin Choi最新86页PPT及论文讲解

常识知识图谱如何用在计算机视觉?华盛顿大学Yejin Choi最新86页PPT及论文讲解

专知

34+阅读 · 2020年1月8日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

史上最大规模：这有一份1.4亿的中文开源知识图谱

史上最大规模：这有一份1.4亿的中文开源知识图谱

机器之心

26+阅读 · 2019年10月17日

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

机器之心

18+阅读 · 2019年7月7日

清华大学：人工智能之知识图谱（附PPT）

清华大学：人工智能之知识图谱（附PPT）

人工智能学家

74+阅读 · 2019年6月9日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

专知

96+阅读 · 2017年9月18日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

材质感知与识别及其在大洋矿物分类中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages

Arxiv

0+阅读 · 2月12日

Benchmarking Large Language Models for Knowledge Graph Validation

Arxiv

0+阅读 · 2月11日

Reshaping Perception Through Technology: From Ancient Script to Large Language Models

Arxiv

0+阅读 · 2月4日

Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages

Arxiv

0+阅读 · 2月2日

Epistemic Diversity and Knowledge Collapse in Large Language Models

Arxiv

0+阅读 · 1月28日

Knowledge Homophily in Large Language Models

Arxiv

0+阅读 · 1月15日

Evaluating Large Language Models for Fair and Reliable Organ Allocation

Arxiv

0+阅读 · 1月14日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

VIP会员

文章信息

相关主题

大语言模型

最新内容

《美陆军条例：陆军指挥政策（2026版）》

《美陆军条例：陆军指挥政策（2026版）》

专知会员服务

6+阅读 · 今天8:10

《提升美军全域城市作战训练最佳实践的案例研究》366页

《提升美军全域城市作战训练最佳实践的案例研究》366页

专知会员服务

7+阅读 · 今天8:06

《军用自主人工智能系统的治理与安全》

《军用自主人工智能系统的治理与安全》

专知会员服务

5+阅读 · 今天8:02

美海军数字作战负责人：如何利用数据快速生成战斗力

美海军数字作战负责人：如何利用数据快速生成战斗力

专知会员服务

4+阅读 · 今天7:32

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

《COOL模型（行动循环圈）：军事领导体系中的战役层级变革流程》

专知会员服务

11+阅读 · 4月20日

《系统簇式多域作战规划范畴论框架》

《系统簇式多域作战规划范畴论框架》

专知会员服务

8+阅读 · 4月20日

《美国防部指令6130.03，第2卷服役医疗标准：保留》

《美国防部指令6130.03，第2卷服役医疗标准：保留》

专知会员服务

6+阅读 · 4月20日

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

《美国防部指令6130.03，第1卷服役医疗标准：任命、征募或征召》

专知会员服务

4+阅读 · 4月20日

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

美空军“战场机载通信节点（BACN）”：美以对伊空战行动中隐形却关键的一环

专知会员服务

8+阅读 · 4月20日

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

【CMU博士论文】面向非结构化环境下医疗急救的具身人工智能

专知会员服务

4+阅读 · 4月20日

高效视频扩散模型：进展与挑战

高效视频扩散模型：进展与挑战

专知会员服务

4+阅读 · 4月20日

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

8+阅读 · 4月20日

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

7+阅读 · 4月20日

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

12+阅读 · 4月20日

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

6+阅读 · 4月20日

相关VIP内容

LLMS4ALL：大语言模型在各学科科研与应用中的综述

LLMS4ALL：大语言模型在各学科科研与应用中的综述

专知会员服务

36+阅读 · 2025年10月4日

【AAAI2025教程】大型语言模型中的知识生命周期：记忆、编辑与超越，216页ppt

【AAAI2025教程】大型语言模型中的知识生命周期：记忆、编辑与超越，216页ppt

专知会员服务

39+阅读 · 2025年3月1日

【HKUST 博士论文】常识知识表示、推理与应用

【HKUST 博士论文】常识知识表示、推理与应用

专知会员服务

25+阅读 · 2025年2月17日

大规模语言模型中的知识机制：综述与展望

大规模语言模型中的知识机制：综述与展望

专知会员服务

56+阅读 · 2024年7月26日

专题综述 | 大语言模型中的知识生命周期

专题综述 | 大语言模型中的知识生命周期

专知会员服务

60+阅读 · 2024年4月16日

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

大模型时代: 知识图谱过时了吗？Griffith大学等最新《统一大型语言模型和知识图谱:路线图》，29页pdf详述最全指南

专知会员服务

193+阅读 · 2023年6月19日

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

重磅！人大等最新《大模型》综述，51页pdf详述大型语言模型进展

专知会员服务

370+阅读 · 2023年4月3日

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

知识在大模型中如何用？中科院软件所最新《大型语言模型知识生命周期》综述，27页pdf阐述知识获取、表示、探测、编辑与应用

专知会员服务

88+阅读 · 2023年3月17日

常识如何用？WSDM2021「常识知识」这份教程讲述常识提取、方法与评估，附170页ppt与视频

常识如何用？WSDM2021「常识知识」这份教程讲述常识提取、方法与评估，附170页ppt与视频

专知会员服务

35+阅读 · 2021年3月12日

集大成者！经典书《知识表示学习》，1035页pdf系统性讲解人工智能知识表示与推理基础、算法与应用

集大成者！经典书《知识表示学习》，1035页pdf系统性讲解人工智能知识表示与推理基础、算法与应用

专知会员服务

155+阅读 · 2020年11月20日

热门VIP内容

开通专知VIP会员享更多权益服务

《提升美军全域城市作战训练最佳实践的案例研究》366页

美海军数字作战负责人：如何利用数据快速生成战斗力

《美陆军条例：陆军指挥政策（2026版）》

《军用自主人工智能系统的治理与安全》

相关资讯

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

推荐！【中文版】《人工智能在指挥和控制系统中的决策支持》瑞典国防研究局

专知

34+阅读 · 2022年7月31日

常识知识图谱如何用在计算机视觉?华盛顿大学Yejin Choi最新86页PPT及论文讲解

常识知识图谱如何用在计算机视觉?华盛顿大学Yejin Choi最新86页PPT及论文讲解

专知

34+阅读 · 2020年1月8日

知识图谱在可解释人工智能中的作用，附81页ppt

知识图谱在可解释人工智能中的作用，附81页ppt

专知

89+阅读 · 2019年11月11日

史上最大规模：这有一份1.4亿的中文开源知识图谱

史上最大规模：这有一份1.4亿的中文开源知识图谱

机器之心

26+阅读 · 2019年10月17日

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

ACL 2019 | AI2等提出自动知识图谱构建模型COMET，接近人类表现

机器之心

18+阅读 · 2019年7月7日

清华大学：人工智能之知识图谱（附PPT）

清华大学：人工智能之知识图谱（附PPT）

人工智能学家

74+阅读 · 2019年6月9日

自然语言处理常识推理综述论文，60页pdf

自然语言处理常识推理综述论文，60页pdf

专知

73+阅读 · 2019年4月4日

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

一图了解人工智能知识体系大全-专知主题知识树人工智能可视化

专知

96+阅读 · 2017年9月18日

【知识图谱】大规模知识图谱的构建、推理及应用

【知识图谱】大规模知识图谱的构建、推理及应用

产业智能官

38+阅读 · 2017年9月12日

大规模知识图谱的构建、推理及应用

大规模知识图谱的构建、推理及应用

人工智能头条

15+阅读 · 2017年8月29日

相关论文

Tutoring Large Language Models to be Domain-adaptive, Precise, and Safe

Arxiv

0+阅读 · 2月14日

Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages

Arxiv

0+阅读 · 2月12日

Benchmarking Large Language Models for Knowledge Graph Validation

Arxiv

0+阅读 · 2月11日

Reshaping Perception Through Technology: From Ancient Script to Large Language Models

Arxiv

0+阅读 · 2月4日

Evaluating Metalinguistic Knowledge in Large Language Models across the World's Languages

Arxiv

0+阅读 · 2月2日

Epistemic Diversity and Knowledge Collapse in Large Language Models

Arxiv

0+阅读 · 1月28日

Knowledge Homophily in Large Language Models

Arxiv

0+阅读 · 1月15日

Evaluating Large Language Models for Fair and Reliable Organ Allocation

Arxiv

0+阅读 · 1月14日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

501+阅读 · 2023年3月31日

The Life Cycle of Knowledge in Big Language Models: A Survey

Arxiv

28+阅读 · 2023年3月14日

相关基金

材质感知与识别及其在大洋矿物分类中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

结合知识图谱的概率话题模型研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂决策环境下面向共识的群体评价模型与方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于人脸表情、身体姿态和语音的多模态情感识别方法研究

国家自然科学基金

10+阅读 · 2015年12月31日

复杂公共环境下群体行为尺度自适应建模与特定异常行为识别算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于图像属性和深度学习的大规模物体检测研究与应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于空间认知常识的定性地理信息检索研究

国家自然科学基金

2+阅读 · 2014年12月31日

基于认知计算的大数据分析方法

国家自然科学基金

25+阅读 · 2014年12月31日

高维混合数据异常知识发现的粒计算模型关键问题研究

国家自然科学基金

1+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员