A widely recognized limitation of molecular prediction models is their reliance on structures observed in the training data, resulting in poor generalization to out-of-distribution compounds. Yet in drug discovery, the compounds most critical for advancing research often lie beyond the training set, making the bias toward the training data particularly problematic. This mismatch introduces substantial covariate shift, under which standard deep learning models produce unstable and inaccurate predictions. Furthermore, the scarcity of labeled data-stemming from the onerous and costly nature of experimental validation-further exacerbates the difficulty of achieving reliable generalization. To address these limitations, we propose a novel bilevel optimization approach that leverages unlabeled data to interpolate between in-distribution (ID) and out-of-distribution (OOD) data, enabling the model to learn how to generalize beyond the training distribution. We demonstrate significant performance gains on challenging real-world datasets with substantial covariate shift, supported by t-SNE visualizations highlighting our interpolation method.


翻译:分子预测模型的一个公认局限性在于其过度依赖训练数据中观察到的结构,导致对分布外化合物的泛化能力较差。然而在药物发现领域,对研究进展最为关键的化合物往往位于训练集之外,这使得模型对训练数据的偏向性尤为突出。这种不匹配引入了显著的协变量偏移,在此情况下标准深度学习模型会产生不稳定且不准确的预测。此外,由于实验验证过程繁重且成本高昂,标记数据的稀缺性进一步加剧了实现可靠泛化的难度。为应对这些局限性,我们提出了一种新颖的双层优化方法,该方法利用未标记数据在分布内数据与分布外数据之间进行插值,使模型能够学习如何超越训练分布进行泛化。通过在具有显著协变量偏移的挑战性真实数据集上展示显著的性能提升,并辅以t-SNE可视化技术突显我们插值方法的优势,验证了该方法的有效性。

0
下载
关闭预览

相关内容

【MIT博士论文】基于数据的模型可靠性视角,322页pdf
专知会员服务
39+阅读 · 2024年3月25日
主动学习预测结合自由能进行分子优化
专知会员服务
16+阅读 · 2022年9月18日
ATMOL:利用对比学习预训练模型预测分子性质
专知会员服务
12+阅读 · 2022年8月14日
深度学习在分子生成和分子性质预测中的应用
专知会员服务
36+阅读 · 2022年6月19日
【WWW2021】少样本图学习分子性质预测
专知会员服务
36+阅读 · 2021年2月20日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
「PPT」深度学习中的不确定性估计
专知
27+阅读 · 2019年7月20日
你的算法可靠吗? 神经网络不确定性度量
专知
40+阅读 · 2019年4月27日
稀疏性的3个优势 -《稀疏统计学习及其应用》
遇见数学
15+阅读 · 2018年10月24日
回归预测&时间序列预测
GBASE数据工程部数据团队
44+阅读 · 2017年5月17日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
8+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员