The quantum Hamiltonian is a fundamental property that governs a molecule's electronic structure and behavior, and its calculation and prediction are paramount in computational chemistry and materials science. Accurate prediction is highly reliant on extensive training data, including precise molecular geometries and the Hamiltonian matrices, which are expensive to acquire via either experimental or computational methods. Towards a fast yet accurate method for Hamiltonian prediction, we first introduce a geometry information-aware molecular language model to bypass the use of expensive molecular geometries by only using the readily available molecular language -- simplified molecular input line entry system (SMILES). Our method employs multimodal alignment to bridge the relationship between SMILES strings and their corresponding molecular geometries. Recognizing that the molecular language inherently lacks explicit geometric information, we propose a geometry modality compensation strategy to imbue molecular language representations with essential geometric features, thereby enabling accurate predictions using SMILES. In addition, given the high cost of acquiring Hamiltonian data, we devise a weakly supervised strategy to fine-tune the molecular language model, thus improving the data efficiency. Theoretically, we prove that the prediction generalization error without explicit molecular geometry can be bounded through our modality compensation scheme. Empirically, our method achieves superior computational efficiency, providing up to 100x speedup over conventional quantum mechanical methods while maintaining comparable prediction accuracy. We further demonstrate the practical case study of our approach in the screening of electrolyte formulations.


翻译:量子哈密顿量是决定分子电子结构与行为的基本属性,其计算与预测在计算化学与材料科学中至关重要。精确预测高度依赖于大量训练数据,包括精确的分子几何构型与哈密顿量矩阵,而通过实验或计算方法获取这些数据成本高昂。为实现快速而准确的哈密顿量预测,我们首先引入一种几何信息感知的分子语言模型,通过仅使用易于获取的分子语言——简化分子线性输入规范(SMILES)——来规避对昂贵分子几何构型数据的依赖。该方法采用多模态对齐技术,以桥接SMILES字符串与其对应分子几何构型之间的关系。鉴于分子语言本身缺乏显式的几何信息,我们提出一种几何模态补偿策略,为分子语言表征注入必要的几何特征,从而仅使用SMILES即可实现准确预测。此外,考虑到获取哈密顿量数据的高成本,我们设计了一种弱监督策略对分子语言模型进行微调,从而提升数据利用效率。理论上,我们证明了通过所提出的模态补偿方案,可以在不使用显式分子几何构型的情况下约束预测泛化误差。实证结果表明,我们的方法实现了卓越的计算效率,相较于传统量子力学方法可获得高达100倍的加速,同时保持可比的预测精度。我们进一步通过电解质配方筛选的实际案例研究展示了该方法的实用价值。

0
下载
关闭预览

相关内容

量子计算在非正规战争中的新兴潜力
专知会员服务
17+阅读 · 2025年2月23日
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
31+阅读 · 2024年2月8日
主动学习预测结合自由能进行分子优化
专知会员服务
16+阅读 · 2022年9月18日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
专知会员服务
37+阅读 · 2021年9月12日
几何深度学习分子表示综述
专知会员服务
41+阅读 · 2021年9月7日
【大数据】海量数据分析能力形成和大数据关键技术
产业智能官
17+阅读 · 2018年10月29日
超全总结:神经网络加速之量化模型 | 附带代码
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Arxiv
0+阅读 · 1月14日
VIP会员
相关VIP内容
量子计算在非正规战争中的新兴潜力
专知会员服务
17+阅读 · 2025年2月23日
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
31+阅读 · 2024年2月8日
主动学习预测结合自由能进行分子优化
专知会员服务
16+阅读 · 2022年9月18日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
专知会员服务
37+阅读 · 2021年9月12日
几何深度学习分子表示综述
专知会员服务
41+阅读 · 2021年9月7日
相关基金
国家自然科学基金
1+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员