This data paper introduces MajinBook, an open catalogue designed to facilitate the use of shadow libraries--such as Library Genesis and Z-Library--for computational social science and cultural analytics. By linking metadata from these vast, crowd-sourced archives with structured bibliographic data from Goodreads, we create a high-precision corpus of over 539,000 references to English-language books spanning three centuries, enriched with first publication dates, genres, and popularity metrics like ratings and reviews. Our methodology prioritizes natively digital EPUB files to ensure machine-readable quality, while addressing biases in traditional corpora like HathiTrust, and includes secondary datasets for French, German, and Spanish. We evaluate the linkage strategy for accuracy, release all underlying data openly, and discuss the project's legal permissibility under EU and US frameworks for text and data mining in research.


翻译:本文介绍了MajinBook,这是一个旨在促进利用影子图书馆(如Library Genesis和Z-Library)进行计算社会科学与文化分析的开放目录。通过将这些庞大的众包档案的元数据与Goodreads的结构化书目数据相链接,我们创建了一个高精度的语料库,包含超过539,000条跨越三个世纪的英文书籍参考文献,并丰富了首次出版日期、体裁以及评分和评论等流行度指标。我们的方法优先采用原生数字EPUB文件以确保机器可读质量,同时解决了传统语料库(如HathiTrust)中的偏差,并包含法语、德语和西班牙语的次级数据集。我们评估了链接策略的准确性,公开释放了所有基础数据,并讨论了该项目在欧盟和美国研究文本与数据挖掘法律框架下的合法性。

0
下载
关闭预览
VIP会员
最新内容
《系统簇式多域作战规划范畴论框架》
专知会员服务
5+阅读 · 4月20日
高效视频扩散模型:进展与挑战
专知会员服务
2+阅读 · 4月20日
乌克兰前线的五项创新
专知会员服务
7+阅读 · 4月20日
 军事通信系统与设备的技术演进综述
专知会员服务
5+阅读 · 4月20日
《北约标准:医疗评估手册》174页
专知会员服务
5+阅读 · 4月20日
《提升生成模型的安全性与保障》博士论文
专知会员服务
5+阅读 · 4月20日
美国当前高超音速导弹发展概述
专知会员服务
4+阅读 · 4月19日
无人机蜂群建模与仿真方法
专知会员服务
14+阅读 · 4月19日
Top
微信扫码咨询专知VIP会员