We present the Wikidata Query Logs (WDQL) dataset, a dataset consisting of 200k question-query pairs over the Wikidata knowledge graph. It is over 6x larger than the largest existing Wikidata datasets of similar format without relying on template-generated queries. Instead, we construct it using real-world SPARQL queries sent to the Wikidata Query Service and generate questions for them. Since these log-based queries are anonymized, and therefore often do not produce results, a significant amount of effort is needed to convert them back into meaningful SPARQL queries. To achieve this, we present an agent-based method that iteratively de-anonymizes, cleans, and verifies queries against Wikidata while also generating corresponding natural-language questions. We demonstrate the dataset's benefit for training question-answering methods. All WDQL assets, as well as the agent code, are publicly available under a permissive license.


翻译:本文介绍维基数据查询日志(WDQL)数据集,该数据集包含基于维基数据知识图谱的20万个问题-查询对。其规模超过现有最大同类格式维基数据数据集的六倍,且不依赖模板生成的查询。相反,我们通过采集发送至维基数据查询服务的真实SPARQL查询日志,并为其生成对应问题的方式构建本数据集。由于这些基于日志的查询已匿名化处理且常无法返回有效结果,需投入大量工作将其还原为有意义的SPARQL查询。为此,我们提出一种基于智能体的方法,该方法在针对维基数据进行迭代式去匿名化、清洗与验证查询的同时,还能生成对应的自然语言问题。我们通过实验证明了本数据集在训练问答方法方面的优势。所有WDQL资源及智能体代码均已在宽松许可协议下公开发布。

0
下载
关闭预览

相关内容

维基数据(Wikidata)是一个具有超过4600万个数据项的维基数据库。
【AAAI2021】维基百科检索跳转来回答复杂的问题
专知会员服务
15+阅读 · 2021年1月5日
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
70+阅读 · 2019年5月17日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
13+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
12+阅读 · 2019年1月30日
【Wikidata】维基数据详解
专知
22+阅读 · 2018年4月26日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【AAAI2021】维基百科检索跳转来回答复杂的问题
专知会员服务
15+阅读 · 2021年1月5日
相关资讯
DataFun,就这?!
DataFunTalk
38+阅读 · 2020年9月27日
【资源推荐】公开数据集收集汇总
专知
19+阅读 · 2019年6月5日
别找了,送你 20 个文本数据集
机器学习算法与Python学习
70+阅读 · 2019年5月17日
20个安全可靠的免费数据源,各领域数据任你挑
机器学习算法与Python学习
13+阅读 · 2019年5月9日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
12+阅读 · 2019年1月30日
【Wikidata】维基数据详解
专知
22+阅读 · 2018年4月26日
【资源】史上最全数据集汇总
七月在线实验室
18+阅读 · 2018年4月24日
不要担心没数据!史上最全数据集网站汇总
福利 | 最全面超大规模数据集下载链接汇总
AI研习社
26+阅读 · 2017年9月7日
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员