The de novo generation of molecules with desirable properties is a critical challenge, where diffusion models are computationally intensive and autoregressive models struggle with error propagation. In this work, we introduce the Graph VQ-Transformer (GVT), a two-stage generative framework that achieves both high accuracy and efficiency. The core of our approach is a novel Graph Vector Quantized Variational Autoencoder (VQ-VAE) that compresses molecular graphs into high-fidelity discrete latent sequences. By synergistically combining a Graph Transformer with canonical Reverse Cuthill-McKee (RCM) node ordering and Rotary Positional Embeddings (RoPE), our VQ-VAE achieves near-perfect reconstruction rates. An autoregressive Transformer is then trained on these discrete latents, effectively converting graph generation into a well-structured sequence modeling problem. Crucially, this mapping of complex graphs to high-fidelity discrete sequences bridges molecular design with the powerful paradigm of large-scale sequence modeling, unlocking potential synergies with Large Language Models (LLMs). Extensive experiments show that GVT achieves state-of-the-art or highly competitive performance across major benchmarks like ZINC250k, MOSES, and GuacaMol, and notably outperforms leading diffusion models on key distribution similarity metrics such as FCD and KL Divergence. With its superior performance, efficiency, and architectural novelty, GVT not only presents a compelling alternative to diffusion models but also establishes a strong new baseline for the field, paving the way for future research in discrete latent-space molecular generation.


翻译:从头生成具有理想性质的分子是一个关键挑战,其中扩散模型计算密集,而自回归模型则受困于误差传播。本文提出了Graph VQ-Transformer (GVT),一种两阶段生成框架,兼具高精度与高效率。该方法的核心是一种新颖的Graph Vector Quantized Variational Autoencoder (VQ-VAE),它将分子图压缩为高保真的离散潜变量序列。通过将Graph Transformer与规范的Reverse Cuthill-McKee (RCM)节点排序及Rotary Positional Embeddings (RoPE)协同结合,我们的VQ-VAE实现了近乎完美的重构率。随后,在这些离散潜变量上训练一个自回归Transformer,有效地将图生成问题转化为一个结构良好的序列建模问题。至关重要的是,这种将复杂图映射到高保真离散序列的方法,将分子设计与强大的大规模序列建模范式相连接,为与大型语言模型(LLMs)的潜在协同效应开辟了道路。大量实验表明,GVT在ZINC250k、MOSES和GuacaMol等主要基准测试中达到了最先进或极具竞争力的性能,并且在FCD和KL散度等关键分布相似性指标上显著优于领先的扩散模型。凭借其卓越的性能、效率和架构新颖性,GVT不仅为扩散模型提供了一个引人注目的替代方案,也为该领域建立了一个强大的新基准,为离散潜空间分子生成的未来研究铺平了道路。

0
下载
关闭预览

相关内容

【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
34+阅读 · 2021年4月14日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关VIP内容
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
 DiffRec: 扩散推荐模型(SIGIR'23)
专知会员服务
48+阅读 · 2023年4月16日
AAAI 2022 | ProtGNN:自解释图神经网络
专知会员服务
40+阅读 · 2022年2月28日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
【ICLR2021】自监督蒸馏学习视觉表示
专知会员服务
34+阅读 · 2021年4月14日
相关资讯
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
相关基金
国家自然科学基金
1+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员