Machine learning (ML) models are increasingly deployed for virtual screening in drug discovery, where the goal is to identify novel, chemically diverse scaffolds while minimizing experimental costs. This creates a fundamental challenge: the most valuable discoveries lie in out-of-distribution (OOD) regions beyond the training data, yet ML models often degrade under distribution shift. Standard novelty-rejection strategies ensure reliability within the training domain but limit discovery by rejecting precisely the novel scaffolds most worth finding. Moreover, experimental budgets permit testing only a small fraction of nominated candidates, demanding models that produce reliable confidence estimates. We introduce EXPLOR (Extrapolatory Pseudo-Label Matching for OOD Uncertainty-Based Rejection), a framework that addresses both challenges through extrapolatory pseudo-labeling on latent-space augmentations, requiring only a single labeled training set and no access to unlabeled test compounds, mirroring the realistic conditions of prospective screening campaigns. Through a multi-headed architecture with a novel per-head matching loss, EXPLOR learns to extrapolate to OOD chemical space while producing reliable confidence estimates, with particularly strong performance in high-confidence regions, which is critical for virtual screening where only top-ranked candidates advance to experimental validation. We demonstrate state-of-the-art performance across chemical and tabular benchmarks using different molecular embeddings.


翻译:机器学习(ML)模型越来越多地应用于药物发现中的虚拟筛选,其目标是识别新颖、化学多样性骨架的同时最小化实验成本。这产生了一个根本性挑战:最有价值的发现往往位于训练数据之外的超分布(OOD)区域,然而ML模型在分布偏移下性能通常会退化。标准的创新拒绝策略虽能确保训练域内的可靠性,但通过精确拒绝最值得发现的新颖骨架反而限制了探索。此外,实验预算只允许测试少量提名候选对象,这要求模型能产生可靠的置信度估计。我们提出EXPLOR(面向超分布不确定性拒绝的外推伪标签匹配框架),该框架通过隐空间增强下的外推伪标签化同时应对这两项挑战,仅需单次标记训练集且无需访问未标记测试化合物,完全符合前瞻性筛选活动的真实条件。通过新颖的逐头匹配损失函数驱动的多头架构,EXPLOR在生成可靠置信度估计的同时学习外推至超分布化学空间,在高置信度区域表现尤为突出——这对虚拟筛选至关重要,因为只有排名靠前的候选对象才会进入实验验证。我们采用不同分子嵌入方法在化学和表格基准测试中展示了最先进的性能。

0
下载
关闭预览

相关内容

【剑桥大学博士论文】机器学习中的分布外泛化,214页pdf
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
深度学习超参数搜索实用指南
云栖社区
28+阅读 · 2018年10月14日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
12+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员