AI is transforming scientific research by revealing new ways to understand complex physical systems, but its impact remains constrained by the lack of large, high-quality domain-specific datasets. A rich, largely untapped resource lies in non-Hermitian quantum physics, where the energy spectra of crystals form intricate geometries on the complex plane -- termed as Hamiltonian spectral graphs. Despite their significance as fingerprints for electronic behavior, their systematic study has been intractable due to the reliance on manual extraction. To unlock this potential, we introduce Poly2Graph: a high-performance, open-source pipeline that automates the mapping of 1-D crystal Hamiltonians to spectral graphs. Using this tool, we present HSG-12M: a dataset containing 11.6 million static and 5.1 million dynamic Hamiltonian spectral graphs across 1401 characteristic-polynomial classes, distilled from 177 TB of spectral potential data. Crucially, HSG-12M is the first large-scale dataset of spatial multigraphs -- graphs embedded in a metric space where multiple geometrically distinct trajectories between two nodes are retained as separate edges. This simultaneously addresses a critical gap, as existing graph benchmarks overwhelmingly assume simple, non-spatial edges, discarding vital geometric information. Benchmarks with popular GNNs expose new challenges in learning spatial multi-edges at scale. Beyond its practical utility, we show that spectral graphs serve as universal topological fingerprints of polynomials, vectors, and matrices, forging a new algebra-to-graph link. HSG-12M lays the groundwork for data-driven scientific discovery in condensed matter physics, new opportunities in geometry-aware graph learning and beyond.


翻译:人工智能通过揭示理解复杂物理系统的新途径,正在变革科学研究,但其影响仍受限于缺乏大规模、高质量的领域专用数据集。一个丰富且很大程度上尚未开发的资源存在于非厄米量子物理中,其中晶体的能谱在复平面上形成复杂的几何结构——被称为哈密顿量谱图。尽管这些谱图作为电子行为的指纹具有重要意义,但由于依赖人工提取,其系统性研究一直难以进行。为释放这一潜力,我们提出了Poly2Graph:一个高性能、开源的处理流程,能够自动将一维晶体哈密顿量映射为谱图。利用此工具,我们发布了HSG-12M:一个包含1160万个静态和510万个动态哈密顿量谱图的数据集,涵盖1401个特征多项式类别,从177 TB的谱势数据中提炼而成。关键的是,HSG-12M是首个大规模的空间多重图数据集——这些图嵌入在一个度量空间中,其中两个节点之间多条几何上不同的轨迹被保留为独立的边。这同时解决了一个关键空白,因为现有的图基准绝大多数假设简单、非空间的边,丢弃了至关重要的几何信息。使用流行图神经网络的基准测试揭示了在大规模学习空间多重边方面的新挑战。除了其实用价值,我们还证明了谱图可作为多项式、向量和矩阵的通用拓扑指纹,从而建立了一种新的代数到图的联系。HSG-12M为凝聚态物理中的数据驱动科学发现、几何感知图学习及其他领域的新机遇奠定了基础。

0
下载
关闭预览

相关内容

大模型+遥感?最新《遥感中的人工智能基础模型》综述
专知会员服务
63+阅读 · 2024年8月10日
PlaNet 简介:用于强化学习的深度规划网络
谷歌开发者
13+阅读 · 2019年3月16日
最新|深度离散哈希算法,可用于图像检索!
全球人工智能
14+阅读 · 2017年12月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员