Crystal structure prediction (CSP), which aims to predict the three-dimensional atomic arrangement of a crystal from its composition, is central to materials discovery and mechanistic understanding. However, given the composition and atomic counts in a unit cell, existing methods struggle with the NP-hard combinatorial challenge of rigorous symmetry enforcement or rely on retrieving known templates, which inherently limits both physical fidelity and the ability to discover genuinely new materials. To solve this, we propose a symmetry-driven generative framework. Our approach leverages large language models to encode chemical semantics and directly generate fine-grained Wyckoff patterns from atomic stoichiometry and counts, effectively circumventing the limitations inherent to database lookups. Crucially, to overcome the exponentially complex problem of combinatorial site assignments, we incorporate domain knowledge through an efficient, linear-complexity heuristic beam search algorithm that rigorously enforces algebraic consistency between site multiplicities and atomic stoichiometry and counts. By integrating this symmetry-consistent template into a diffusion backbone, our approach constrains the stochastic generative trajectory to a physically valid geometric manifold. This framework achieves state-of-the-art performance across stability, uniqueness, and novelty (SUN) benchmarks, alongside superior matching performance, thereby establishing a new paradigm for the rigorous exploration of targeted crystallographic space which can be previously uncharted, with no reliance on existing databases or a priori structural knowledge.


翻译:晶体结构预测(CSP)旨在根据晶体组成预测其三维原子排列,是材料发现和机理理解的核心。然而,给定晶胞中的化学组成和原子数量,现有方法难以应对严格对称性约束所固有的NP-hard组合挑战,或依赖于检索已知模板,这本质上限制了物理保真度和发现真正新材料的能力。为解决此问题,我们提出了一种对称性驱动的生成框架。我们的方法利用大型语言模型编码化学语义,并直接从原子化学计量和数量生成细粒度的Wyckoff位型,有效规避了数据库查询的固有局限。关键的是,为克服组合位点分配的指数级复杂问题,我们通过一种高效的线性复杂度启发式束搜索算法融入领域知识,该算法严格保证了位点多重性与原子化学计量及数量之间的代数一致性。通过将此对称性一致的模板整合到扩散主干网络中,我们的方法将随机生成轨迹约束在物理有效的几何流形上。该框架在稳定性、唯一性和新颖性(SUN)基准测试中实现了最先进的性能,同时展现出卓越的匹配性能,从而为严格探索目标晶体学空间(包括先前未知且不依赖现有数据库或先验结构知识的领域)建立了新范式。

0
下载
关闭预览

相关内容

具有组合结构的统计推断和在线算法
专知会员服务
12+阅读 · 2022年12月13日
基于人工智能(AI)的蛋白结构预测工具合集
专知会员服务
10+阅读 · 2022年8月25日
ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
【Cell】可扩展深度图神经网络的高性能材料性能预测
专知会员服务
18+阅读 · 2022年5月4日
最新《图嵌入组合优化》综述论文,40页pdf
【学界】DeepMind论文:深度压缩感知,新框架提升GAN性能
GAN生成式对抗网络
14+阅读 · 2019年5月23日
【材料课堂】TEM复杂电子衍射花样的标定原理
材料科学与工程
39+阅读 · 2019年4月12日
从信息瓶颈理论一瞥机器学习的“大一统理论”
国家自然科学基金
0+阅读 · 2017年6月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年6月30日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员