A Semi-supervised Molecular Learning Framework for Activity Cliff Estimation - 专知论文

会员服务 ·

0

活性 · 分子 · 半监督 · 监督 · ML ·

A Semi-supervised Molecular Learning Framework for Activity Cliff Estimation

翻译：一种用于活性悬崖估计的半监督分子学习框架

Machine learning (ML) enables accurate and fast molecular property predictions, which are of interest in drug discovery and material design. Their success is based on the principle of similarity at its heart, assuming that similar molecules exhibit close properties. However, activity cliffs challenge this principle, and their presence leads to a sharp decline in the performance of existing ML algorithms, particularly graph-based methods. To overcome this obstacle under a low-data scenario, we propose a novel semi-supervised learning (SSL) method dubbed SemiMol, which employs predictions on numerous unannotated data as pseudo-signals for subsequent training. Specifically, we introduce an additional instructor model to evaluate the accuracy and trustworthiness of proxy labels because existing pseudo-labeling approaches require probabilistic outputs to reveal the model's confidence and fail to be applied in regression tasks. Moreover, we design a self-adaptive curriculum learning algorithm to progressively move the target model toward hard samples at a controllable pace. Extensive experiments on 30 activity cliff datasets demonstrate that SemiMol significantly enhances graph-based ML architectures and outpasses state-of-the-art pretraining and SSL baselines.

翻译：机器学习（ML）能够实现准确且快速的分子性质预测，这在药物发现和材料设计中具有重要意义。其成功基于其核心的相似性原理，即假设相似分子表现出相近的性质。然而，活性悬崖挑战了这一原理，它们的存在导致现有ML算法（尤其是基于图的方法）的性能急剧下降。为了在低数据场景下克服这一障碍，我们提出了一种新颖的半监督学习（SSL）方法，命名为SemiMol，该方法利用对大量未标注数据的预测结果作为后续训练的伪信号。具体而言，我们引入了一个额外的指导模型来评估代理标签的准确性和可信度，因为现有的伪标签方法需要概率输出来揭示模型的置信度，无法应用于回归任务。此外，我们设计了一种自适应课程学习算法，以可控的速度逐步将目标模型导向困难样本。在30个活性悬崖数据集上的大量实验表明，SemiMol显著增强了基于图的ML架构，并超越了最先进的预训练和SSL基线方法。

0

相关内容

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

28+阅读 · 2024年9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

30+阅读 · 2024年9月7日

博士论文《联邦学习仿真器》221页，米兰理工大学

博士论文《联邦学习仿真器》221页，米兰理工大学

专知会员服务

31+阅读 · 2023年3月14日

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

专知会员服务

28+阅读 · 2023年1月11日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

专知会员服务

64+阅读 · 2022年4月29日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

22+阅读 · 2021年12月4日

深度学习与应用框架

专知会员服务

125+阅读 · 2021年6月19日

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

专知会员服务

24+阅读 · 2021年3月15日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

专知

13+阅读 · 2022年1月27日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于力学效应的微悬臂梁传感技术在细胞活性监测上的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态网络结构的膜计算系统及其算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

CGRA4ML: A Hardware/Software Framework to Implement Neural Networks for Scientific Edge Computing

Arxiv

0+阅读 · 2月4日

DistMLIP: A Distributed Inference Platform for Machine Learning Interatomic Potentials

Arxiv

0+阅读 · 1月31日

Bridging the Gap Between Simulated and Real Network Data Using Transfer Learning

Arxiv

0+阅读 · 1月21日

DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling

Arxiv

0+阅读 · 1月21日

SecMLOps: A Comprehensive Framework for Integrating Security Throughout the MLOps Lifecycle

Arxiv

0+阅读 · 1月15日

Rep3Net: An Approach Exploiting Multimodal Representation for Molecular Bioactivity Prediction

Arxiv

0+阅读 · 1月12日

Active Learning Strategies for Efficient Machine-Learned Interatomic Potentials Across Diverse Material Systems

Arxiv

0+阅读 · 1月11日

Interpretable Hybrid Machine Learning Models Using FOLD-R++ and Answer Set Programming

Arxiv

0+阅读 · 1月7日

Improving the accuracy and generalizability of molecular property regression models with a substructure-substitution-rule-informed framework

Arxiv

0+阅读 · 1月5日

Discovery and inference beyond linearity by integrating Bayesian regression, tree ensembles and Shapley values

Arxiv

0+阅读 · 2025年12月31日

VIP会员

文章信息

相关主题

最新内容

伊朗战争停火期间美军关键弹药状况分析

伊朗战争停火期间美军关键弹药状况分析

专知会员服务

4+阅读 · 今天11:13

电子战革命：塑造战场的十年突破（2015–2025）

电子战革命：塑造战场的十年突破（2015–2025）

专知会员服务

3+阅读 · 今天9:19

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

专知会员服务

3+阅读 · 今天9:00

《基于模型的系统工程框架及其在电子战系统中的应用》

《基于模型的系统工程框架及其在电子战系统中的应用》

专知会员服务

3+阅读 · 今天8:27

人工智能即服务与未来战争（印度视角）

人工智能即服务与未来战争（印度视角）

专知会员服务

1+阅读 · 今天7:57

《将量子技术集成到移动军事系统与战术作战中心框架》

《将量子技术集成到移动军事系统与战术作战中心框架》

专知会员服务

2+阅读 · 今天7:53

《美国战争部2027财年军事人员预算》

《美国战争部2027财年军事人员预算》

专知会员服务

1+阅读 · 今天7:44

伊朗战争中的电子战

伊朗战争中的电子战

专知会员服务

4+阅读 · 今天7:04

大语言模型平台在国防情报应用中的对比

大语言模型平台在国防情报应用中的对比

专知会员服务

7+阅读 · 今天3:12

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

美陆军“增强任务分析”实验：将人工智能集成到军事决策流程中

专知会员服务

5+阅读 · 今天3:00

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

《面向安全态势自适应决策的情报信息系统与机器学习算法研究》

专知会员服务

4+阅读 · 今天2:56

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

《杀伤链中人类判断的终结？论AI智能体对主动权与解释权的重置》

专知会员服务

4+阅读 · 今天2:44

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

《仿真互操作性标准：实时平台参考联邦对象模型指南、原理与互操作性模式标准》300页

专知会员服务

8+阅读 · 今天2:37

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

《自主远程巡飞弹药打击系统的嵌入式人工智能感知框架》

专知会员服务

6+阅读 · 今天2:22

美海军“超配项目”

美海军“超配项目”

专知会员服务

6+阅读 · 今天2:13

相关VIP内容

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

28+阅读 · 2024年9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

30+阅读 · 2024年9月7日

博士论文《联邦学习仿真器》221页，米兰理工大学

博士论文《联邦学习仿真器》221页，米兰理工大学

专知会员服务

31+阅读 · 2023年3月14日

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

《通过数学演绎推理产生形式智能，并作为从数据模式中归纳推理产生知识的补充》2022最新论文，加拿大国防研究与发展部

专知会员服务

28+阅读 · 2023年1月11日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

博士论文《对抗环境中的深度学习》全面讲解对抗深度学习，169页PDF

专知会员服务

64+阅读 · 2022年4月29日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

22+阅读 · 2021年12月4日

深度学习与应用框架

专知会员服务

125+阅读 · 2021年6月19日

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

「学习几何结构」，Ron Kimmel讲述新半监督学习方法，附PPT与视频

专知会员服务

24+阅读 · 2021年3月15日

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

图解FixMatch的半监督学习，The Illustrated FixMatch for Semi-Supervised Learning

专知会员服务

26+阅读 · 2020年4月2日

热门VIP内容

开通专知VIP会员享更多权益服务

电子战革命：塑造战场的十年突破（2015–2025）

《基于模型的系统工程框架及其在电子战系统中的应用》

伊朗战争停火期间美军关键弹药状况分析

人工智能赋能电子战解决方案：实现电磁优势的认知方法（万字长文）

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

【2022新书】机器学习基础，225页pdf，Machine Learning The Basics

专知

13+阅读 · 2022年1月27日

【新书】机器学习算法，模型与应用，154页pdf

【新书】机器学习算法，模型与应用，154页pdf

专知

24+阅读 · 2022年1月20日

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

【Manning2020新书】R/mlr机器学习，513页pdf，Machine Learning with R

专知

69+阅读 · 2020年3月7日

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

【香港科技大学】联邦半监督学习综述，A Survey on Federated Semi-supervised Learning

专知

20+阅读 · 2020年2月28日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

【机器学习】深入剖析机器学习中的统计思想

【机器学习】深入剖析机器学习中的统计思想

产业智能官

17+阅读 · 2019年1月24日

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

DeepMind无监督表示学习重大突破：语音、图像、文本、强化学习全能冠军！

新智元

12+阅读 · 2018年7月13日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

相关论文

CGRA4ML: A Hardware/Software Framework to Implement Neural Networks for Scientific Edge Computing

Arxiv

0+阅读 · 2月4日

DistMLIP: A Distributed Inference Platform for Machine Learning Interatomic Potentials

Arxiv

0+阅读 · 1月31日

Bridging the Gap Between Simulated and Real Network Data Using Transfer Learning

Arxiv

0+阅读 · 1月21日

DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling

Arxiv

0+阅读 · 1月21日

SecMLOps: A Comprehensive Framework for Integrating Security Throughout the MLOps Lifecycle

Arxiv

0+阅读 · 1月15日

Rep3Net: An Approach Exploiting Multimodal Representation for Molecular Bioactivity Prediction

Arxiv

0+阅读 · 1月12日

Active Learning Strategies for Efficient Machine-Learned Interatomic Potentials Across Diverse Material Systems

Arxiv

0+阅读 · 1月11日

Interpretable Hybrid Machine Learning Models Using FOLD-R++ and Answer Set Programming

Arxiv

0+阅读 · 1月7日

Improving the accuracy and generalizability of molecular property regression models with a substructure-substitution-rule-informed framework

Arxiv

0+阅读 · 1月5日

Discovery and inference beyond linearity by integrating Bayesian regression, tree ensembles and Shapley values

Arxiv

0+阅读 · 2025年12月31日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

基于力学效应的微悬臂梁传感技术在细胞活性监测上的研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于动态网络结构的膜计算系统及其算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于图的半监督学习算法研究

国家自然科学基金

5+阅读 · 2015年12月31日

复杂环境下机器学习的理论研究

国家自然科学基金

21+阅读 · 2015年12月31日

分布式有监督学习的学习理论

国家自然科学基金

17+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

复杂数据下带有形状约束的半参数模型统计推断

国家自然科学基金

3+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员