We address the task of controlled generation of small molecules, which entails finding novel molecules with desired properties under certain constraints (e.g., similarity to a reference molecule). Here we introduce MolMIM, a probabilistic auto-encoder for small molecule drug discovery that learns an informative and clustered latent space. MolMIM is trained with Mutual Information Machine (MIM) learning, and provides a fixed length representation of variable length SMILES strings. Since encoder-decoder models can learn representations with ``holes'' of invalid samples, here we propose a novel extension to the training procedure which promotes a dense latent space, and allows the model to sample valid molecules from random perturbations of latent codes. We provide a thorough comparison of MolMIM to several variable-size and fixed-size encoder-decoder models, demonstrating MolMIM's superior generation as measured in terms of validity, uniqueness, and novelty. We then utilize CMA-ES, a naive black-box and gradient free search algorithm, over MolMIM's latent space for the task of property guided molecule optimization. We achieve state-of-the-art results in several constrained single property optimization tasks as well as in the challenging task of multi-objective optimization, improving over previous success rate SOTA by more than 5\% . We attribute the strong results to MolMIM's latent representation which clusters similar molecules in the latent space, whereas CMA-ES is often used as a baseline optimization method. We also demonstrate MolMIM to be favourable in a compute limited regime, making it an attractive model for such cases.


翻译:我们研究了小分子的可控生成任务,即在特定约束条件(如与参考分子的相似性)下寻找具有期望特性的新型分子。本文提出MolMIM,一种用于小分子药物发现的概率自编码器,能够学习信息丰富且聚类良好的潜在空间。MolMIM通过互信息机(Mutual Information Machine, MIM)学习进行训练,可为可变长度的SMILES字符串生成固定长度的表示。针对编码器-解码器模型可能因无效样本产生“空洞”表示的问题,我们提出了一种新颖的训练扩展方法,以促进潜在空间的致密性,使模型能够从潜在编码的随机扰动中采样有效分子。我们通过将MolMIM与多种变长及定长编码器-解码器模型进行全面比较,证明了MolMIM在生成有效性、唯一性和新颖性方面的优越性能。随后,我们利用CMA-ES(一种朴素黑箱无梯度搜索算法)在MolMIM的潜在空间中执行属性导向的分子优化任务。在多个受约束的单属性优化任务以及极具挑战性的多目标优化任务中,我们取得了最先进的结果,成功率较先前最佳水平提升超过5%。我们将这一显著成果归因于MolMIM的潜在表示能够使相似分子在潜在空间中聚类,而CMA-ES通常仅作为基准优化方法。此外,我们还证明了MolMIM在计算资源受限场景下的优越性,使其成为此类场景的理想模型。

0
下载
关闭预览

相关内容

直接分子构象生成
专知会员服务
9+阅读 · 2022年11月7日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
6+阅读 · 2022年10月24日
MOG:利用能量模型生成数据集分布外的分子
专知会员服务
9+阅读 · 2022年7月16日
专知会员服务
63+阅读 · 2020年3月4日
八篇NeurIPS 2019【图神经网络(GNN)】相关论文
专知会员服务
44+阅读 · 2020年1月10日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示
开放知识图谱
25+阅读 · 2019年10月31日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
19+阅读 · 2022年7月29日
Arxiv
12+阅读 · 2022年1月26日
Arxiv
12+阅读 · 2021年7月26日
Adversarial Mutual Information for Text Generation
Arxiv
13+阅读 · 2020年6月30日
Arxiv
11+阅读 · 2018年9月28日
VIP会员
最新内容
学习数据的几何:形状空间分析数学综述
专知会员服务
6+阅读 · 6月17日
定向能反无人机系统最新发展动态
专知会员服务
7+阅读 · 6月17日
从燃煤战舰到算法战争:水面指挥的永恒要求
专知会员服务
4+阅读 · 6月17日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示
开放知识图谱
25+阅读 · 2019年10月31日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
44+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
18+阅读 · 2018年12月24日
论文浅尝 | 常识用于回答生成式多跳问题
开放知识图谱
16+阅读 · 2018年11月24日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
笔记 | Deep active learning for named entity recognition
黑龙江大学自然语言处理实验室
24+阅读 · 2018年5月27日
相关论文
相关基金
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员