The integration of large-scale chemical databases represents a critical bottleneck in modern cheminformatics research, particularly for machine learning applications requiring high-quality, multi-source validated datasets. This paper presents a case study of integrating three major public chemical repositories: PubChem (176 million compounds), ChEMBL, and eMolecules, to construct a curated dataset for molecular property prediction. We investigate whether byte-offset indexing can practically overcome brute-force scalability limits while preserving data integrity at hundred-million scale. Our results document the progression from an intractable brute-force search algorithm with projected 100-day runtime to a byte-offset indexing architecture achieving 3.2-hour completion - a 740-fold performance improvement through algorithmic complexity reduction from $O(N \times M)$ to $O(N + M)$. Systematic validation of 176 million database entries revealed hash collisions in InChIKey molecular identifiers, necessitating pipeline reconstruction using collision-free full InChI strings. We present performance benchmarks, quantify trade-offs between storage overhead and scientific rigor, and compare our approach with alternative large-scale integration strategies. The resulting system successfully extracted 435,413 validated compounds and demonstrates generalizable principles for large-scale scientific data integration where uniqueness constraints exceed hash-based identifier capabilities.


翻译:大规模化学数据库的整合是当代化学信息学研究中的关键瓶颈,尤其对于需要高质量、多源验证数据集的机器学习应用而言。本文以三大公共化学资源库——PubChem(1.76亿化合物)、ChEMBL和eMolecules的整合为案例,构建了一个用于分子性质预测的精选数据集。我们探究了字节偏移索引能否在十亿级数据规模下实际突破暴力扩展限制,同时保持数据完整性。研究结果记录了从预计运行100天的不可行暴力搜索算法,到仅需3.2小时完成的字节偏移索引架构的演进过程——通过将算法复杂度从$O(N \times M)$降至$O(N + M)$,实现了740倍的性能提升。对1.76亿数据库条目的系统性验证揭示了InChIKey分子标识符存在哈希碰撞现象,因此需要采用无碰撞的完整InChI字符串重建数据流水线。我们提供了性能基准测试结果,量化了存储开销与科学严谨性之间的权衡,并将本方案与其他大规模整合策略进行了对比。最终系统成功提取了435,413个已验证化合物,并展示了在唯一性约束超出哈希标识符能力时,适用于大规模科学数据整合的可推广原则。

0
下载
关闭预览

相关内容

数据集,又称为资料集、数据集合或资料集合,是一种由数据所组成的集合。
Data set(或dataset)是一个数据的集合,通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量,如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数,该数据集的数据可能包括一个或多个成员。
《大语言模型的数据合成与增强综述》
专知会员服务
44+阅读 · 2024年10月19日
【MIT博士论文】高效深度学习计算的模型加速
专知会员服务
34+阅读 · 2024年8月23日
Nat. Commun. | 基于最优传输的单细胞数据集成统一计算框架
专知会员服务
12+阅读 · 2022年12月19日
专知会员服务
29+阅读 · 2021年8月27日
【MIT博士论文】数据高效强化学习,176页pdf
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
一文教你如何处理不平衡数据集(附代码)
大数据文摘
12+阅读 · 2019年6月2日
机器学习数据集哪里找:优秀数据集来源盘点
云栖社区
12+阅读 · 2019年1月30日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月2日
VIP会员
最新内容
美国从乌克兰无人机战争中学习经验
专知会员服务
6+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
2+阅读 · 6月21日
学习数据的几何:形状空间分析数学综述
专知会员服务
9+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
12+阅读 · 6月17日
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员