We present the Wikidata Query Logs (WDQL) dataset, a dataset consisting of 335k question-query pairs over the Wikidata knowledge graph. It is over 11x larger than the largest existing Wikidata datasets of similar format without relying on template-generated queries. Instead, we construct it using real-world SPARQL queries sent to the Wikidata Query Service and generate questions for them. Since these log-based queries are anonymized, and therefore often do not produce results, a significant amount of effort is needed to convert them back into meaningful SPARQL queries. To achieve this, we present an agent-based method that iteratively de-anonymizes, cleans, and verifies queries against Wikidata while also generating corresponding natural-language questions. We demonstrate the benefit of this dataset for training question-answering methods. All WDQL assets, as well as the agent code, are publicly available via https://github.com/ad-freiburg/wikidata-query-logs under a permissive license.


翻译:暂无翻译

0
下载
关闭预览

相关内容

维基数据(Wikidata)是一个具有超过4600万个数据项的维基数据库。
WWW24 | 从数据中心化的角度校准图神经网络
专知会员服务
14+阅读 · 2024年9月14日
图数据库的发展脉络与技术演进
专知会员服务
25+阅读 · 2023年1月17日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
43+阅读 · 2020年7月27日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
98+阅读 · 2019年12月4日
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
70+阅读 · 2019年5月17日
Github项目推荐 | 知识图谱文献集合
AI研习社
26+阅读 · 2019年4月12日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【Wikidata】维基数据详解
专知
22+阅读 · 2018年4月26日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
论文浅尝 | Question Answering over Freebase
开放知识图谱
19+阅读 · 2018年1月9日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Arxiv
0+阅读 · 6月8日
Arxiv
0+阅读 · 5月15日
VIP会员
最新内容
《通过小型无人机系统将情报能力“作战化”》
消耗优势:美军的“精确规模化”概念
专知会员服务
8+阅读 · 6月15日
《离线语言支持系统:面向空战战术决策》
专知会员服务
9+阅读 · 6月15日
相关VIP内容
WWW24 | 从数据中心化的角度校准图神经网络
专知会员服务
14+阅读 · 2024年9月14日
图数据库的发展脉络与技术演进
专知会员服务
25+阅读 · 2023年1月17日
数据科学导论,54页ppt,Introduction to Data Science
专知会员服务
43+阅读 · 2020年7月27日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
98+阅读 · 2019年12月4日
相关资讯
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
70+阅读 · 2019年5月17日
Github项目推荐 | 知识图谱文献集合
AI研习社
26+阅读 · 2019年4月12日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
【Wikidata】维基数据详解
专知
22+阅读 · 2018年4月26日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
论文浅尝 | Question Answering over Freebase
开放知识图谱
19+阅读 · 2018年1月9日
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
12+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员