The Wikidata Query Logs Dataset - 专知论文

会员服务 ·

0

wikidata · 数据集 · 数据查询 · 查询日志 · SPARQL ·

The Wikidata Query Logs Dataset

翻译：维基数据查询日志数据集

Sebastian Walter,Hannah Bast

We present the Wikidata Query Logs (WDQL) dataset, a dataset consisting of 200k question-query pairs over the Wikidata knowledge graph. It is over 6x larger than the largest existing Wikidata datasets of similar format without relying on template-generated queries. Instead, we construct it using real-world SPARQL queries sent to the Wikidata Query Service and generate questions for them. Since these log-based queries are anonymized, and therefore often do not produce results, a significant amount of effort is needed to convert them back into meaningful SPARQL queries. To achieve this, we present an agent-based method that iteratively de-anonymizes, cleans, and verifies queries against Wikidata while also generating corresponding natural-language questions. We demonstrate the dataset's benefit for training question-answering methods. All WDQL assets, as well as the agent code, are publicly available under a permissive license.

翻译：本文介绍维基数据查询日志（WDQL）数据集，该数据集包含基于维基数据知识图谱的20万个问题-查询对。其规模超过现有最大同类格式维基数据数据集的六倍，且不依赖模板生成的查询。相反，我们通过采集发送至维基数据查询服务的真实SPARQL查询日志，并为其生成对应问题的方式构建本数据集。由于这些基于日志的查询已匿名化处理且常无法返回有效结果，需投入大量工作将其还原为有意义的SPARQL查询。为此，我们提出一种基于智能体的方法，该方法在针对维基数据进行迭代式去匿名化、清洗与验证查询的同时，还能生成对应的自然语言问题。我们通过实验证明了本数据集在训练问答方法方面的优势。所有WDQL资源及智能体代码均已在宽松许可协议下公开发布。

0

相关内容

wikidata

维基数据(Wikidata)是一个具有超过4600万个数据项的维基数据库。

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

收藏！ChatGPT数据科学提示速查表，60多个数据科学任务的ChatGPT提示，78页pdf

收藏！ChatGPT数据科学提示速查表，60多个数据科学任务的ChatGPT提示，78页pdf

专知会员服务

106+阅读 · 2023年4月2日

【AAAI2021】维基百科检索跳转来回答复杂的问题

【AAAI2021】维基百科检索跳转来回答复杂的问题

专知会员服务

15+阅读 · 2021年1月5日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

318+阅读 · 2020年7月9日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

DataFun，就这？！

DataFun，就这？！

DataFunTalk

38+阅读 · 2020年9月27日

【资源推荐】公开数据集收集汇总

【资源推荐】公开数据集收集汇总

专知

19+阅读 · 2019年6月5日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

70+阅读 · 2019年5月17日

20个安全可靠的免费数据源，各领域数据任你挑

20个安全可靠的免费数据源，各领域数据任你挑

机器学习算法与Python学习

13+阅读 · 2019年5月9日

机器学习数据集哪里找：优秀数据集来源盘点

机器学习数据集哪里找：优秀数据集来源盘点

云栖社区

12+阅读 · 2019年1月30日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

AWS 上可用的公用数据集，任何人都可以免费访问

AWS 上可用的公用数据集，任何人都可以免费访问

AI研习社

11+阅读 · 2018年4月2日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

微博中定向话题发现与追踪

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source

Arxiv

0+阅读 · 3月16日

Sketch-Oriented Databases

Arxiv

0+阅读 · 3月7日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

Survey: Graph Databases

Arxiv

0+阅读 · 2月23日

DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

Arxiv

0+阅读 · 2月18日

Efficient Crawling for Scalable Web Data Acquisition (Extended Version)

Arxiv

0+阅读 · 2月12日

TLSQL: Table Learning Structured Query Language

Arxiv

0+阅读 · 2月12日

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets

Arxiv

0+阅读 · 2月10日

Towards Efficient Data Structures for Approximate Search with Range Queries

Arxiv

0+阅读 · 2月6日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

VIP会员

文章信息

相关主题

最新内容

《美战争部小企业创新研究（SBIR）计划》

《美战争部小企业创新研究（SBIR）计划》

专知会员服务

0+阅读 · 12分钟前

《军事模拟：将军事条令与目标融入AI智能体》

《军事模拟：将军事条令与目标融入AI智能体》

专知会员服务

1+阅读 · 17分钟前

【NTU博士论文】3D人体动作生成

【NTU博士论文】3D人体动作生成

专知会员服务

2+阅读 · 4月24日

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

专知会员服务

2+阅读 · 4月24日

以色列军事技术对美国军力发展的持续性赋能

以色列军事技术对美国军力发展的持续性赋能

专知会员服务

8+阅读 · 4月24日

战场之外的较量：美伊冲突中的认知战与心理博弈

战场之外的较量：美伊冲突中的认知战与心理博弈

专知会员服务

6+阅读 · 4月24日

俄乌战争中乌克兰防空能力演变与见解（中文版）

俄乌战争中乌克兰防空能力演变与见解（中文版）

专知会员服务

4+阅读 · 4月24日

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

《面向巡飞弹药系统的情境感知深度强化学习自主非线性机动控制》

专知会员服务

8+阅读 · 4月24日

《深度强化学习在兵棋推演中的应用》40页报告

《深度强化学习在兵棋推演中的应用》40页报告

专知会员服务

11+阅读 · 4月24日

《多域作战面临复杂现实》

《多域作战面临复杂现实》

专知会员服务

8+阅读 · 4月24日

《印度的多域作战：条令与能力发展》报告

《印度的多域作战：条令与能力发展》报告

专知会员服务

3+阅读 · 4月24日

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

《是“修复情报”还是修复部队？阿富汗反叛乱行动中的美军情报调整》400页

专知会员服务

3+阅读 · 4月24日

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

美军的算法化军备库：无人机优势计划（DDP）、复制者倡议（Replicator）与联合全域指挥控制（JADC2）如何重写战争规则

专知会员服务

3+阅读 · 4月24日

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

（中文版）美空军部发布《空军部数据战略》与《人工智能战略》两份战略：旨在加速建立军事优势

专知会员服务

17+阅读 · 4月24日

【斯坦福博士论文】语言模型的机械可解释性与控制

【斯坦福博士论文】语言模型的机械可解释性与控制

专知会员服务

4+阅读 · 4月23日

相关VIP内容

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

158页《大型语言模型数据集》全面综述，444个数据集涵盖预训练、指令微调、偏好、评估等，附中英文版

专知会员服务

155+阅读 · 2024年3月1日

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

【AAAI2024】Wikiformer: 利用维基百科结构化信息进行预训练，用于Ad-hoc检索

专知会员服务

19+阅读 · 2023年12月26日

收藏！ChatGPT数据科学提示速查表，60多个数据科学任务的ChatGPT提示，78页pdf

收藏！ChatGPT数据科学提示速查表，60多个数据科学任务的ChatGPT提示，78页pdf

专知会员服务

106+阅读 · 2023年4月2日

【AAAI2021】维基百科检索跳转来回答复杂的问题

【AAAI2021】维基百科检索跳转来回答复杂的问题

专知会员服务

15+阅读 · 2021年1月5日

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

最新《知识图谱复杂问答》综述论文，A Survey on Complex Question Answering over Knowledge Base: Recent Advances and Challenges

专知会员服务

74+阅读 · 2020年7月28日

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

最新《数据科学：全面综述论文》42页pdf，Data Science: A Comprehensive Overview

专知会员服务

318+阅读 · 2020年7月9日

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

【斯坦福大学】《海量数据集挖掘》电子书及相关资源《Mining of Massive Datasets》

专知会员服务

81+阅读 · 2020年3月30日

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

【TIST接受论文】20年<网络表格提取、检索与增强>最新综述，挪威斯塔万格大学

专知会员服务

24+阅读 · 2020年2月16日

【深度学习表格检测、信息提取和结构化】《Table Detection, Information Extraction and Structuring using Deep Learning》by Vihar Kurama

专知会员服务

38+阅读 · 2020年1月23日

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

微软研究院新版书籍《数据科学基础》（Foundations of Data Science），附479页PDF下载

专知会员服务

137+阅读 · 2019年10月26日

热门VIP内容

开通专知VIP会员享更多权益服务

《军事模拟：将军事条令与目标融入AI智能体》

DeepSeek-V4：百万 Token 上下文背后，大模型正在进入“长程智能”时代（附中英文pdf版）

《美战争部小企业创新研究（SBIR）计划》

【NTU博士论文】3D人体动作生成

相关资讯

DataFun，就这？！

DataFun，就这？！

DataFunTalk

38+阅读 · 2020年9月27日

【资源推荐】公开数据集收集汇总

【资源推荐】公开数据集收集汇总

专知

19+阅读 · 2019年6月5日

别找了，送你 20 个文本数据集

别找了，送你 20 个文本数据集

机器学习算法与Python学习

70+阅读 · 2019年5月17日

20个安全可靠的免费数据源，各领域数据任你挑

20个安全可靠的免费数据源，各领域数据任你挑

机器学习算法与Python学习

13+阅读 · 2019年5月9日

机器学习数据集哪里找：优秀数据集来源盘点

机器学习数据集哪里找：优秀数据集来源盘点

云栖社区

12+阅读 · 2019年1月30日

【Wikidata】维基数据详解

【Wikidata】维基数据详解

专知

22+阅读 · 2018年4月26日

【资源】史上最全数据集汇总

【资源】史上最全数据集汇总

七月在线实验室

18+阅读 · 2018年4月24日

不要担心没数据！史上最全数据集网站汇总

不要担心没数据！史上最全数据集网站汇总

数盟

14+阅读 · 2018年4月18日

AWS 上可用的公用数据集，任何人都可以免费访问

AWS 上可用的公用数据集，任何人都可以免费访问

AI研习社

11+阅读 · 2018年4月2日

福利 | 最全面超大规模数据集下载链接汇总

福利 | 最全面超大规模数据集下载链接汇总

AI研习社

26+阅读 · 2017年9月7日

相关论文

ViWikiFC: Fact-Checking for Vietnamese Wikipedia-Based Textual Knowledge Source

Arxiv

0+阅读 · 3月16日

Sketch-Oriented Databases

Arxiv

0+阅读 · 3月7日

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Arxiv

0+阅读 · 3月4日

Survey: Graph Databases

Arxiv

0+阅读 · 2月23日

DataCube: A Video Retrieval Platform via Natural Language Semantic Profiling

Arxiv

0+阅读 · 2月18日

Efficient Crawling for Scalable Web Data Acquisition (Extended Version)

Arxiv

0+阅读 · 2月12日

TLSQL: Table Learning Structured Query Language

Arxiv

0+阅读 · 2月12日

From Bugs to Benchmarks: A Comprehensive Survey of Software Defect Datasets

Arxiv

0+阅读 · 2月10日

Towards Efficient Data Structures for Approximate Search with Range Queries

Arxiv

0+阅读 · 2月6日

A Survey on Complex Knowledge Base Question Answering: Methods, Challenges and Solutions

Arxiv

21+阅读 · 2021年5月25日

相关基金

语义Web知识库补全关键技术研究

国家自然科学基金

18+阅读 · 2017年12月31日

微博中定向话题发现与追踪

国家自然科学基金

0+阅读 · 2015年12月31日

不确定数据流的分布并行Skyline查询技术研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于关键词的大规模链接数据搜索技术研究

国家自然科学基金

7+阅读 · 2015年12月31日

以用户为中心的电子商务大数据偏好查询处理与优化

国家自然科学基金

0+阅读 · 2015年12月31日

基于Spark的大图数据最优子模式匹配查询方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异构数据库的查询语言设计及其基础理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

超高维数据中若干检验问题的研究

国家自然科学基金

0+阅读 · 2015年12月31日

集群环境下内存空间数据库管理与查询技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

面向大规模知识图谱的查询处理关键技术研究

国家自然科学基金

18+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员