Wikipedia's contents are based on reliable and published sources. To this date, relatively little is known about what sources Wikipedia relies on, in part because extracting citations and identifying cited sources is challenging. To close this gap, we release Wikipedia Citations, a comprehensive dataset of citations extracted from Wikipedia. A total of 29.3M citations were extracted from 6.1M English Wikipedia articles as of May 2020, and classified as being to books, journal articles or Web contents. We were thus able to extract 4.0M citations to scholarly publications with known identifiers -- including DOI, PMC, PMID, and ISBN -- and further equip an extra 261K citations with DOIs from Crossref. As a result, we find that 6.7% of Wikipedia articles cite at least one journal article with an associated DOI, and that Wikipedia cites just 2% of all articles with a DOI currently indexed in the Web of Science. We release our code to allow the community to extend upon our work and update the dataset in the future.


翻译:维基百科的内容基于可靠和公开的资料来源。 至今,维基百科所依赖的资料来源相对鲜为人知, 部分是因为提取引用和识别引用来源是具有挑战性的。 为了缩小这一差距,我们发布了维基百科引用的综合数据集《维基百科引用》。 截至2020年5月,共从6.1M英文维基百科文章中提取了29.3M条引文,并被归类为书籍、期刊文章或网络内容。因此,我们得以提取4. 0M条引文给学术出版物,包括DOI、PMC、PMID和ISBN, 并用Crossref的DOIs进一步配置了261K引文。 结果,我们发现维基百科文章中有6.7 %的期刊文章引用了至少一篇相关DOI的文章, 维基百科引用了目前由DOI在科学网站上索引的所有文章的2%。我们发布了我们的代码, 使社区能够扩展我们的工作并更新未来的数据集。

1
下载
关闭预览

相关内容

迁移学习简明教程,11页ppt
专知会员服务
109+阅读 · 2020年8月4日
[综述]深度学习下的场景文本检测与识别
专知会员服务
78+阅读 · 2019年10月10日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
53+阅读 · 2019年9月29日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
已删除
将门创投
7+阅读 · 2017年7月11日
Arxiv
5+阅读 · 2019年8月22日
Knowledge Based Machine Reading Comprehension
Arxiv
4+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年8月27日
Arxiv
10+阅读 · 2018年4月19日
Arxiv
3+阅读 · 2017年12月18日
VIP会员
最新内容
2025年大语言模型进展报告
专知会员服务
10+阅读 · 4月25日
多智能体协作机制
专知会员服务
10+阅读 · 4月25日
非对称优势:美海军开发低成本反无人机技术
专知会员服务
9+阅读 · 4月25日
《美战争部小企业创新研究(SBIR)计划》
专知会员服务
8+阅读 · 4月25日
《军事模拟:将军事条令与目标融入AI智能体》
专知会员服务
12+阅读 · 4月25日
【NTU博士论文】3D人体动作生成
专知会员服务
9+阅读 · 4月24日
以色列军事技术对美国军力发展的持续性赋能
专知会员服务
9+阅读 · 4月24日
《深度强化学习在兵棋推演中的应用》40页报告
专知会员服务
16+阅读 · 4月24日
《多域作战面临复杂现实》
专知会员服务
13+阅读 · 4月24日
《印度的多域作战:条令与能力发展》报告
专知会员服务
6+阅读 · 4月24日
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
Python机器学习教程资料/代码
机器学习研究会
8+阅读 · 2018年2月22日
已删除
将门创投
7+阅读 · 2017年7月11日
Top
微信扫码咨询专知VIP会员