Accurately predicting experimentally realizable 3D molecular crystal structures from their 2D chemical graphs is a long-standing open challenge in computational chemistry called crystal structure prediction (CSP). Efficiently solving this problem has implications ranging from pharmaceuticals to organic semiconductors, as crystal packing directly governs the physical and chemical properties of organic solids. In this paper, we introduce OXtal, a large-scale 100M parameter all-atom diffusion model that directly learns the conditional joint distribution over intramolecular conformations and periodic packing. To efficiently scale OXtal, we abandon explicit equivariant architectures imposing inductive bias arising from crystal symmetries in favor of data augmentation strategies. We further propose a novel crystallization-inspired lattice-free training scheme, Stoichiometric Stochastic Shell Sampling ($S^4$), that efficiently captures long-range interactions while sidestepping explicit lattice parametrization -- thus enabling more scalable architectural choices at all-atom resolution. By leveraging a large dataset of 600K experimentally validated crystal structures (including rigid and flexible molecules, co-crystals, and solvates), OXtal achieves orders-of-magnitude improvements over prior ab initio machine learning CSP methods, while remaining orders of magnitude cheaper than traditional quantum-chemical approaches. Specifically, OXtal recovers experimental structures with conformer $\text{RMSD}_1<0.5$ Å and attains over 80\% packing similarity rate, demonstrating its ability to model both thermodynamic and kinetic regularities of molecular crystallization.


翻译:摘要:从二维化学图准确预测可实验实现的三维分子晶体结构,是计算化学领域长期存在的开放挑战,称为晶体结构预测(CSP)。高效解决该问题对制药到有机半导体等领域具有重要影响,因为晶体堆积直接决定了有机固体的物理和化学性质。本文提出OXtal——一个包含1亿参数的大规模全原子扩散模型,直接学习分子内构象与周期性堆积的条件联合分布。为高效扩展OXtal,我们摒弃显式等变架构对晶体对称性归纳偏置的依赖,转而采用数据增强策略。我们进一步提出一种受结晶启发的无格点训练方案——化学计量随机壳层采样($S^4$),在避免显式晶格参数化的同时高效捕获长程相互作用,从而在全原子分辨率下实现更具扩展性的架构选择。通过利用包含60万实验验证晶体结构(涵盖刚性/柔性分子、共晶体及溶剂化物)的大型数据集,OXtal相比先前的从头算机器学习CSP方法实现了数量级的性能提升,同时仍保持比传统量子化学方法低数个数量级的计算成本。具体而言,OXtal可恢复构象$\text{RMSD}_1<0.5$ Å的实验结构,并达到超过80%的堆积相似率,展现了其模拟分子结晶热力学与动力学规律的能力。

0
下载
关闭预览

相关内容

【ICLR2024】3D-MoLM:增强语言模型对分子3D空间结构的理解
ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
22+阅读 · 2021年12月4日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
15+阅读 · 2021年5月30日
【材料课堂】TEM复杂电子衍射花样的标定原理
材料科学与工程
39+阅读 · 2019年4月12日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 3月18日
VIP会员
最新内容
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
1+阅读 · 今天15:00
21世纪的无人机战争
专知会员服务
2+阅读 · 今天14:05
《量子技术的军事任务技术适配与利用》
专知会员服务
2+阅读 · 今天13:51
美国从乌克兰无人机战争中学习经验
专知会员服务
7+阅读 · 6月21日
ICML 2026 | 面向视觉语言模型的语义鲁棒性认证
专知会员服务
5+阅读 · 6月21日
相关VIP内容
【ICLR2024】3D-MoLM:增强语言模型对分子3D空间结构的理解
ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
AlphaFold教程与最新蛋白质结构预测进展,附视频与Slides
专知会员服务
29+阅读 · 2022年6月16日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
22+阅读 · 2021年12月4日
【ICML2021】学习分子构象生成的梯度场
专知会员服务
15+阅读 · 2021年5月30日
相关资讯
【材料课堂】TEM复杂电子衍射花样的标定原理
材料科学与工程
39+阅读 · 2019年4月12日
SkeletonNet:完整的人体三维位姿重建方法
计算机视觉life
21+阅读 · 2019年1月21日
深度学习时代的图模型,清华发文综述图网络
GAN生成式对抗网络
13+阅读 · 2018年12月23日
概率图模型体系:HMM、MEMM、CRF
机器学习研究会
30+阅读 · 2018年2月10日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
Top
微信扫码咨询专知VIP会员