This data paper introduces MajinBook, an open catalogue designed to facilitate the use of shadow libraries--such as Library Genesis and Z-Library--for computational social science and cultural analytics. By linking metadata from these vast, crowd-sourced archives with structured bibliographic data from Goodreads, we create a high-precision corpus of over 539,000 references to English-language books spanning three centuries, enriched with first publication dates, genres, and popularity metrics like ratings and reviews. Our methodology prioritizes natively digital EPUB files to ensure machine-readable quality, while addressing biases in traditional corpora like HathiTrust, and includes secondary datasets for French, German, and Spanish. We evaluate the linkage strategy for accuracy, release all underlying data openly, and discuss the project's legal permissibility under EU and US frameworks for text and data mining in research.


翻译:本数据论文介绍了MajinBook,这是一个旨在促进利用影子图书馆(如Library Genesis和Z-Library)进行计算社会科学与文化分析的开放目录。通过将这些海量众包档案的元数据与Goodreads的结构化书目数据相关联,我们构建了一个包含超过539,000条英文书籍引用的高精度语料库,时间跨度长达三个世纪,并丰富了初版日期、体裁以及评分和评论等流行度指标。我们的方法优先采用原生数字EPUB文件以确保机器可读质量,同时解决了HathiTrust等传统语料库的偏差问题,并包含了法语、德语和西班牙语的次级数据集。我们评估了关联策略的准确性,公开释放了所有底层数据,并讨论了该项目在欧盟和美国研究文本与数据挖掘法律框架下的合规性。

0
下载
关闭预览

相关内容

【开放书】数据科学经济金融应用,357页pdf
专知会员服务
73+阅读 · 2022年3月10日
【经典书】数据科学艺术:数据工作者指南,162页pdf
专知会员服务
55+阅读 · 2021年3月9日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
技术动态 | TechKG:一个面向中文学术领域的大型知识图谱
开放知识图谱
25+阅读 · 2018年12月20日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
10本必读的机器学习和数据科学免费在线电子书
算法与数据结构
12+阅读 · 2018年6月19日
这可能是学习Python最好的免费在线电子书
程序猿
56+阅读 · 2018年5月17日
一位数据分析师的书单
R语言中文社区
12+阅读 · 2017年10月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【开放书】数据科学经济金融应用,357页pdf
专知会员服务
73+阅读 · 2022年3月10日
【经典书】数据科学艺术:数据工作者指南,162页pdf
专知会员服务
55+阅读 · 2021年3月9日
【电子书】大数据挖掘,Mining of Massive Datasets,附513页PDF
专知会员服务
105+阅读 · 2020年3月22日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员