Drug discovery can be viewed as a combinatorial search over an immense chemical space, motivating the development of deep generative models for de novo molecular design. Among these, GPT-based molecular language models (MLM) have shown strong molecular design performance by learning chemical syntax and semantics from large-scale data. However, existing MLMs face two fundamental limitations: they inadequately capture the graph-structured nature of molecules when formulated as next-token prediction problems, and they typically lack explicit mechanisms for target-aware generation. Here, we propose SoftMol, a unified framework that co-designs molecular representation, model architecture, and search strategy for target-aware molecular generation. SoftMol introduces soft fragments, a rule-free block representation of SMILES that enables diffusion-native modeling, and develops SoftBD, the first block-diffusion molecular language model that combines local bidirectional diffusion with autoregressive generation under molecular structural constraints. To favor generated molecules with high drug-likeness and synthetic accessibility, SoftBD is trained on a carefully curated dataset named ZINC-Curated. SoftMol further integrates a gated Monte Carlo tree search to assemble fragments in a target-aware manner. Experimental results show that, compared with current state-of-the-art models, SoftMol achieves 100% chemical validity, improves binding affinity by 9.7%, yields a 2-3x increase in molecular diversity, and delivers a 6.6x speedup in inference efficiency. Code is available at https://github.com/szu-aicourse/softmol


翻译:药物发现可视为在巨大化学空间中的组合搜索,这推动了用于从头分子设计的深度生成模型的发展。其中,基于GPT的分子语言模型通过从大规模数据中学习化学语法和语义,展现出强大的分子设计性能。然而,现有分子语言模型面临两个根本性局限:当被表述为下一个标记预测问题时,它们未能充分捕捉分子的图结构本质;并且通常缺乏用于目标感知生成的显式机制。本文提出SoftMol,一个为靶向分子生成协同设计分子表示、模型架构和搜索策略的统一框架。SoftMol引入了软片段——一种无需规则的SMILES块表示,支持扩散原生建模,并开发了SoftBD,首个结合局部双向扩散与分子结构约束下自回归生成的块扩散分子语言模型。为提升生成分子的类药性与合成可及性,SoftBD在精心构建的ZINC-Curated数据集上进行训练。SoftMol进一步集成门控蒙特卡洛树搜索,以靶向感知方式组装片段。实验结果表明,与当前最先进模型相比,SoftMol实现了100%的化学有效性,将结合亲和力提升9.7%,分子多样性提高2-3倍,推理效率加速6.6倍。代码发布于https://github.com/szu-aicourse/softmol

0
下载
关闭预览

相关内容

【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
【MIT博士论文】分子图表示学习与生成的药物发现
专知会员服务
49+阅读 · 2022年6月28日
综述分享 | 深度学习在分子生成和分子性质预测中的应用
深度学习在分子生成和分子性质预测中的应用
专知会员服务
36+阅读 · 2022年6月19日
几何深度学习分子表示综述
专知会员服务
41+阅读 · 2021年9月7日
从Seq2seq到Attention模型到Self Attention(一)
量化投资与机器学习
76+阅读 · 2018年10月8日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员