Machine learning (ML) enables accurate and fast molecular property predictions, which are of interest in drug discovery and material design. Their success is based on the principle of similarity at its heart, assuming that similar molecules exhibit close properties. However, activity cliffs challenge this principle, and their presence leads to a sharp decline in the performance of existing ML algorithms, particularly graph-based methods. To overcome this obstacle under a low-data scenario, we propose a novel semi-supervised learning (SSL) method dubbed SemiMol, which employs predictions on numerous unannotated data as pseudo-signals for subsequent training. Specifically, we introduce an additional instructor model to evaluate the accuracy and trustworthiness of proxy labels because existing pseudo-labeling approaches require probabilistic outputs to reveal the model's confidence and fail to be applied in regression tasks. Moreover, we design a self-adaptive curriculum learning algorithm to progressively move the target model toward hard samples at a controllable pace. Extensive experiments on 30 activity cliff datasets demonstrate that SemiMol significantly enhances graph-based ML architectures and outpasses state-of-the-art pretraining and SSL baselines.


翻译:机器学习(ML)能够实现准确且快速的分子性质预测,这在药物发现和材料设计中具有重要意义。其成功基于其核心的相似性原理,即假设相似分子表现出相近的性质。然而,活性悬崖挑战了这一原理,它们的存在导致现有ML算法(尤其是基于图的方法)的性能急剧下降。为了在低数据场景下克服这一障碍,我们提出了一种新颖的半监督学习(SSL)方法,命名为SemiMol,该方法利用对大量未标注数据的预测结果作为后续训练的伪信号。具体而言,我们引入了一个额外的指导模型来评估代理标签的准确性和可信度,因为现有的伪标签方法需要概率输出来揭示模型的置信度,无法应用于回归任务。此外,我们设计了一种自适应课程学习算法,以可控的速度逐步将目标模型导向困难样本。在30个活性悬崖数据集上的大量实验表明,SemiMol显著增强了基于图的ML架构,并超越了最先进的预训练和SSL基线方法。

0
下载
关闭预览

相关内容

博士论文《联邦学习仿真器》221页,米兰理工大学
专知会员服务
31+阅读 · 2023年3月14日
ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
NeurIPS 2021 | 通过动态图评分匹配预测分子构象
专知会员服务
22+阅读 · 2021年12月4日
专知会员服务
125+阅读 · 2021年6月19日
【机器学习】深入剖析机器学习中的统计思想
产业智能官
17+阅读 · 2019年1月24日
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
23+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
21+阅读 · 2015年12月31日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员