CKBP v2: An Expert-Annotated Evaluation Set for Commonsense Knowledge Base Population - 专知论文

会员服务 ·

0

常识知识 · 标注 · 知识库 · 知识 · 外部知识 ·

2023 年 4 月 20 日

CKBP v2: An Expert-Annotated Evaluation Set for Commonsense Knowledge Base Population

翻译：CKBP v2：面向常识知识库补全的专家标注评估集

Tianqing Fang,Quyet V. Do,Sehyun Choi,Weiqi Wang,Yangqiu Song

Populating Commonsense Knowledge Bases (CSKB) is an important yet hard task in NLP, as it tackles knowledge from external sources with unseen events and entities. Fang et al. (2021a) proposed a CSKB Population benchmark with an evaluation set CKBP v1. However, CKBP v1 adopts crowdsourced annotations that suffer from a substantial fraction of incorrect answers, and the evaluation set is not well-aligned with the external knowledge source as a result of random sampling. In this paper, we introduce CKBP v2, a new high-quality CSKB Population benchmark, which addresses the two mentioned problems by using experts instead of crowd-sourced annotation and by adding diversified adversarial samples to make the evaluation set more representative. We conduct extensive experiments comparing state-of-the-art methods for CSKB Population on the new evaluation set for future research comparisons. Empirical results show that the population task is still challenging, even for large language models (LLM) such as ChatGPT. Codes and data are available at https://github.com/HKUST-KnowComp/CSKB-Population.

翻译：常识知识库（CSKB）补全是自然语言处理领域中重要但困难的任务，因为它需要处理来自外部来源、包含未见事件和实体的知识。Fang等人（2021a）提出了一个CSKB补全基准任务及配套评估集CKBP v1。然而，CKBP v1采用众包标注方式导致存在大量错误答案，且因随机采样导致评估集与外部知识来源的对齐度不佳。本文提出高质量CSKB补全新基准CKBP v2，通过采用专家标注替代众包方式，并引入多样化对抗样本来提升评估集代表性，解决了上述两个问题。我们通过大量实验比较了当前最先进的CSKB补全方法在新评估集上的表现，为后续研究提供对比基准。实验结果表明，即使面对ChatGPT等大语言模型（LLM），补全任务仍然具有挑战性。相关代码与数据已开源至https://github.com/HKUST-KnowComp/CSKB-Population。

2

相关内容

常识知识

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

专知会员服务

40+阅读 · 2020年5月4日

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

专知会员服务

17+阅读 · 2020年4月10日

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

专知会员服务

24+阅读 · 2020年3月31日

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

专知会员服务

33+阅读 · 2020年3月23日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

专知会员服务

14+阅读 · 2019年11月11日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

开放知识图谱

10+阅读 · 2018年10月19日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

基于几何覆盖方法的半监督聚类算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏隐语义分析与众包的查询意图发现与推荐算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

贵金属—钙钛矿催化剂材料中的金属扩散和催化活性

国家自然科学基金

0+阅读 · 2013年12月31日

新型三维纳米材料光伏电池的制备及性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多方论据博弈的决策知识萃取与联合学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

核壳结构的锂离子电池负极材料Li4Ti5O12的制备及改性研究

国家自然科学基金

0+阅读 · 2011年12月31日

非参数CFAR检测理论及应用

国家自然科学基金

0+阅读 · 2011年12月31日

似然方法的有限样本研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

基于实例动态泛化的共指消解

国家自然科学基金

0+阅读 · 2009年12月31日

Repository-Level Prompt Generation for Large Language Models of Code

Arxiv

1+阅读 · 2023年6月5日

Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations

Arxiv

0+阅读 · 2023年6月5日

Commonsense Knowledge Transfer for Pre-trained Language Models

Arxiv

0+阅读 · 2023年6月4日

Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference

Arxiv

0+阅读 · 2023年6月1日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

CSKG: The CommonSense Knowledge Graph

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

Zero-Shot Transfer Learning for Event Extraction

Arxiv

10+阅读 · 2017年7月4日

VIP会员

文章信息

相关主题

最新内容

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

专知会员服务

2+阅读 · 今天12:37

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

专知会员服务

2+阅读 · 今天11:55

乌克兰战场背后的新武器

乌克兰战场背后的新武器

专知会员服务

4+阅读 · 今天4:55

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

专知会员服务

10+阅读 · 今天2:29

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

未来战争：乌克兰2026年反攻中的作战经验教训 - 新军事战略之“后勤封锁”（中文下载）

专知会员服务

6+阅读 · 今天2:06

基于博弈论的陆军人机协同（长文报告）

基于博弈论的陆军人机协同（长文报告）

专知会员服务

10+阅读 · 今天1:54

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

《天气对反无人机系统“探测-跟踪-识别-失效”链路的影响：俄乌战场分析》

专知会员服务

9+阅读 · 今天1:51

美国陆军航空兵：以愿景引领转型

美国陆军航空兵：以愿景引领转型

专知会员服务

6+阅读 · 今天1:38

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

CVPR 2026教程｜扩散模型原理：连续、离散与实时生成

专知会员服务

4+阅读 · 6月11日

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

重磅综述｜大模型智能体环境工程：建模、合成、评估与协同演化

专知会员服务

5+阅读 · 6月11日

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

面向特种部队的、以操作员为中心的人工智能决策支持系统框架

专知会员服务

8+阅读 · 6月11日

《多域战场上反制小型无人机系统》150页

《多域战场上反制小型无人机系统》150页

专知会员服务

16+阅读 · 6月11日

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

《基于成果军事教育框架下的军官联合职业军事教育认证程序》2026最新170页

专知会员服务

5+阅读 · 6月11日

战场人工智能：增强陆地作战能力的发现与要求

战场人工智能：增强陆地作战能力的发现与要求

专知会员服务

3+阅读 · 6月11日

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

人工智能赋能指挥所：以人工智能为中心的指挥控制的核心要素

专知会员服务

15+阅读 · 6月11日

相关VIP内容

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

【ACL2022-华盛顿大学】生成知识促进常识推理，Generated Knowledge Prompting for Commonsense Reasoning

专知会员服务

26+阅读 · 2022年3月1日

【USC2021】常识推理，47页ppt，Commonsense Reasoning in the Wild

专知会员服务

33+阅读 · 2021年10月9日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

【IJCAI2020】从语言图谱到常识图谱，TransOMCS: From Linguistic Graphs to Commonsense Knowledge

专知会员服务

40+阅读 · 2020年5月4日

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

【ACL2020-Google】学习鲁棒度量的文本生成，BLEURT: Learning Robust Metrics for Text Generation

专知会员服务

17+阅读 · 2020年4月10日

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

【SIGMOD2020】一个全面的主动学习方法的实体匹配基准框架，A Comprehensive Benchmark Framework for Active Learning Methods in Entity Matching

专知会员服务

24+阅读 · 2020年3月31日

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

【SIGMOD2020】知识图谱补全方法的现实再评价，Realistic Re-evaluation of Knowledge Graph Completion Methods: An Experimental Study

专知会员服务

33+阅读 · 2020年3月23日

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

【Google ICLR2020论文】嵌入式大规模检索的预训练任务，Pre-training Tasks for Embedding-based Large-scale Retrieval

专知会员服务

28+阅读 · 2020年2月12日

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

【AAAI2020接受论文】多任务自监督学习的不流利检测，Multi-Task Self-Supervised Learning for Disfluency Detection

专知会员服务

14+阅读 · 2019年11月11日

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

Deep Learning Based Detection and Correction of Cardiac MR Motion Artefacts During Reconstruction for High-Quality Segmentation

专知会员服务

59+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

CVPR 2026趋势报告：视觉AI正在走向世界模型与物理智能，165页ppt

《信任但需验证：军事决策背景下的大型语言模型品格、能力与控制》2026最新59页报告

AUTOLAB：86亿Token实测前沿模型的长程自动科研能力

乌克兰战场背后的新武器

相关资讯

VCIP 2022 Call for Demos

VCIP 2022 Call for Demos

CCF多媒体专委会

1+阅读 · 2022年6月6日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

论文浅尝 | 在生成式多跳机器阅读任务中引入外部常识知识

开放知识图谱

10+阅读 · 2018年10月19日

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

【论文推荐】最新八篇图像描述生成相关论文—比较级对抗学习、正则化RNNs、深层网络、视觉对话、婴儿说话、自我检索

专知

10+阅读 · 2018年4月12日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

【论文推荐】最新五篇命名实体识别（NER）相关论文—对抗学习、语料库、深度多任务学习、先验知识、跨语言语义

专知

37+阅读 · 2018年2月21日

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

【论文推荐】最新5篇信息抽取（IE）相关论文—开放信息抽取、不完整信息、主动学习、越南语、依存分析

专知

12+阅读 · 2018年2月2日

相关论文

Repository-Level Prompt Generation for Large Language Models of Code

Arxiv

1+阅读 · 2023年6月5日

Knowledge-Driven Robot Program Synthesis from Human VR Demonstrations

Arxiv

0+阅读 · 2023年6月5日

Commonsense Knowledge Transfer for Pre-trained Language Models

Arxiv

0+阅读 · 2023年6月4日

Diverse and Faithful Knowledge-Grounded Dialogue Generation via Sequential Posterior Inference

Arxiv

0+阅读 · 2023年6月1日

KG-BART: Knowledge Graph-Augmented BART for Generative Commonsense Reasoning

Arxiv

27+阅读 · 2021年1月21日

CSKG: The CommonSense Knowledge Graph

CSKG: The CommonSense Knowledge Graph

Arxiv

18+阅读 · 2020年12月21日

Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering

Arxiv

16+阅读 · 2019年12月16日

Variational Knowledge Graph Reasoning

Arxiv

15+阅读 · 2018年4月5日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

Zero-Shot Transfer Learning for Event Extraction

Arxiv

10+阅读 · 2017年7月4日

相关基金

基于几何覆盖方法的半监督聚类算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏隐语义分析与众包的查询意图发现与推荐算法研究

国家自然科学基金

1+阅读 · 2013年12月31日

贵金属—钙钛矿催化剂材料中的金属扩散和催化活性

国家自然科学基金

0+阅读 · 2013年12月31日

新型三维纳米材料光伏电池的制备及性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于多方论据博弈的决策知识萃取与联合学习方法研究

国家自然科学基金

5+阅读 · 2012年12月31日

核壳结构的锂离子电池负极材料Li4Ti5O12的制备及改性研究

国家自然科学基金

0+阅读 · 2011年12月31日

非参数CFAR检测理论及应用

国家自然科学基金

0+阅读 · 2011年12月31日

似然方法的有限样本研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于主动学习的半监督领域本体自动构建

国家自然科学基金

4+阅读 · 2009年12月31日

基于实例动态泛化的共指消解

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员