Reliable OOD Virtual Screening with Extrapolatory Pseudo-Label Matching - 专知论文

会员服务 ·

0

Reliable OOD Virtual Screening with Extrapolatory Pseudo-Label Matching

翻译：可靠的超分布虚拟筛选：基于外推伪标签匹配的框架

Yunni Qu,Bhargav Vaduri,Karthikeya Jatoth,James Wellnitz,Dzung Dinh,Seth Veenbaas,Jonathan Chapman,Alexander Tropsha,Junier Oliva

Machine learning (ML) models are increasingly deployed for virtual screening in drug discovery, where the goal is to identify novel, chemically diverse scaffolds while minimizing experimental costs. This creates a fundamental challenge: the most valuable discoveries lie in out-of-distribution (OOD) regions beyond the training data, yet ML models often degrade under distribution shift. Standard novelty-rejection strategies ensure reliability within the training domain but limit discovery by rejecting precisely the novel scaffolds most worth finding. Moreover, experimental budgets permit testing only a small fraction of nominated candidates, demanding models that produce reliable confidence estimates. We introduce EXPLOR (Extrapolatory Pseudo-Label Matching for OOD Uncertainty-Based Rejection), a framework that addresses both challenges through extrapolatory pseudo-labeling on latent-space augmentations, requiring only a single labeled training set and no access to unlabeled test compounds, mirroring the realistic conditions of prospective screening campaigns. Through a multi-headed architecture with a novel per-head matching loss, EXPLOR learns to extrapolate to OOD chemical space while producing reliable confidence estimates, with particularly strong performance in high-confidence regions, which is critical for virtual screening where only top-ranked candidates advance to experimental validation. We demonstrate state-of-the-art performance across chemical and tabular benchmarks using different molecular embeddings.

翻译：机器学习（ML）模型越来越多地应用于药物发现中的虚拟筛选，其目标是识别新颖、化学多样性骨架的同时最小化实验成本。这产生了一个根本性挑战：最有价值的发现往往位于训练数据之外的超分布（OOD）区域，然而ML模型在分布偏移下性能通常会退化。标准的创新拒绝策略虽能确保训练域内的可靠性，但通过精确拒绝最值得发现的新颖骨架反而限制了探索。此外，实验预算只允许测试少量提名候选对象，这要求模型能产生可靠的置信度估计。我们提出EXPLOR（面向超分布不确定性拒绝的外推伪标签匹配框架），该框架通过隐空间增强下的外推伪标签化同时应对这两项挑战，仅需单次标记训练集且无需访问未标记测试化合物，完全符合前瞻性筛选活动的真实条件。通过新颖的逐头匹配损失函数驱动的多头架构，EXPLOR在生成可靠置信度估计的同时学习外推至超分布化学空间，在高置信度区域表现尤为突出——这对虚拟筛选至关重要，因为只有排名靠前的候选对象才会进入实验验证。我们采用不同分子嵌入方法在化学和表格基准测试中展示了最先进的性能。

0

相关内容

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

专知会员服务

10+阅读 · 2025年10月19日

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

28+阅读 · 2024年9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

30+阅读 · 2024年9月7日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

【剑桥大学博士论文】机器学习中的分布外泛化，214页pdf

【剑桥大学博士论文】机器学习中的分布外泛化，214页pdf

专知会员服务

87+阅读 · 2023年9月13日

【KDD2023】协同过滤的高效联合超参数和架构搜索

【KDD2023】协同过滤的高效联合超参数和架构搜索

专知会员服务

23+阅读 · 2023年7月23日

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

专知会员服务

46+阅读 · 2023年3月11日

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

专知会员服务

55+阅读 · 2022年11月14日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

THU数据派

10+阅读 · 2020年4月3日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

使用 Keras Tuner 调节超参数

使用 Keras Tuner 调节超参数

TensorFlow

15+阅读 · 2020年2月6日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

Arxiv

0+阅读 · 5月4日

SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring

Arxiv

0+阅读 · 4月28日

Evaluating Interactive 2D Visualization as a Sample Selection Strategy for Biomedical Time-Series Data Annotation

Arxiv

0+阅读 · 3月27日

Revisiting Gene Ontology Knowledge Discovery with Hierarchical Feature Selection and Virtual Study Group of AI Agents

Arxiv

0+阅读 · 3月20日

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Arxiv

0+阅读 · 3月11日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月24日

The Invisible Gorilla Effect in Out-of-distribution Detection

Arxiv

0+阅读 · 2月23日

Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Arxiv

0+阅读 · 2月23日

Learning Adaptive Pseudo-Label Selection for Semi-Supervised 3D Object Detection

Arxiv

0+阅读 · 2月20日

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Arxiv

0+阅读 · 2月20日

VIP会员

文章信息

相关主题

最新内容

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

专知会员服务

4+阅读 · 今天8:00

重新思考无人机时代的生存能力

重新思考无人机时代的生存能力

专知会员服务

2+阅读 · 今天7:44

装甲突击旅：现代战争思考、战斗与组织

装甲突击旅：现代战争思考、战斗与组织

专知会员服务

2+阅读 · 今天7:28

在人工智能加速决策环境中拓展OODA循环

在人工智能加速决策环境中拓展OODA循环

专知会员服务

3+阅读 · 今天7:18

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰与伊朗案例研究》

专知会员服务

4+阅读 · 今天7:07

军事欺骗：供作战战术指挥官使用的工具

军事欺骗：供作战战术指挥官使用的工具

专知会员服务

3+阅读 · 今天7:03

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

ICML 2026 | CFPO：用反事实策略优化提升多模态推理

专知会员服务

4+阅读 · 6月23日

综述 | 世界动作模型：少做梦，多行动

综述 | 世界动作模型：少做梦，多行动

专知会员服务

5+阅读 · 6月23日

美以伊冲突：无人机与人工智能的运用

美以伊冲突：无人机与人工智能的运用

专知会员服务

10+阅读 · 6月23日

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

《战时图神经网络：整合以色列-伊朗冲突中的网络安全与无人机智能》最新50页文献

专知会员服务

4+阅读 · 6月23日

《特种部队在透明战场中的生存力》最新报告

《特种部队在透明战场中的生存力》最新报告

专知会员服务

5+阅读 · 6月23日

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

《自主无人机蜂群协同与控制系统：人工智能赋能的战场协同与自主任务编排平台》

专知会员服务

8+阅读 · 6月23日

《人工智能生成的零日漏洞：对未来作战的影响》

《人工智能生成的零日漏洞：对未来作战的影响》

专知会员服务

7+阅读 · 6月23日

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

《理解伙伴国在防务能力选择中的偏好：探索美国解决方案的替代选择》美智库200页报告

专知会员服务

4+阅读 · 6月23日

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

6+阅读 · 6月22日

相关VIP内容

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

【NeurIPS2025】《LeapFactual：基于条件流匹配的可靠视觉反事实解释》

专知会员服务

10+阅读 · 2025年10月19日

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

【斯坦福博士论文】超越最大似然估计：分布感知的机器学习

专知会员服务

28+阅读 · 2024年9月21日

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

【斯坦福博士论文】超越最大似然估计：分布感知机器学习

专知会员服务

30+阅读 · 2024年9月7日

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

分布外如何检测？东大等最新《视觉语言模型时代的广义异常检测及其拓展》综述

专知会员服务

25+阅读 · 2024年8月2日

【剑桥大学博士论文】机器学习中的分布外泛化，214页pdf

【剑桥大学博士论文】机器学习中的分布外泛化，214页pdf

专知会员服务

87+阅读 · 2023年9月13日

【KDD2023】协同过滤的高效联合超参数和架构搜索

【KDD2023】协同过滤的高效联合超参数和架构搜索

专知会员服务

23+阅读 · 2023年7月23日

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

机器学习模型如何可靠？191页最新《机器学习模型在户外的鲁棒性、评估和自适应》博士论文

专知会员服务

46+阅读 · 2023年3月11日

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

《用生成性对抗网络增强无人机图像分类训练集》美国空军技术学院2022最新209页论文

专知会员服务

55+阅读 · 2022年11月14日

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

【CVPR2020】用于图像超分辨率的深度展开网络，Deep Unfolding Network for Image Super-Resolution

专知会员服务

44+阅读 · 2020年3月26日

热门VIP内容

开通专知VIP会员享更多权益服务

重新思考无人机时代的生存能力

在人工智能加速决策环境中拓展OODA循环

反无人机拦截器训练与运用课程：对美国陆军部队发展的启示

装甲突击旅：现代战争思考、战斗与组织

相关资讯

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

【干货书】MLOps是什么？MLOps实战：操作机器学习模型，461页pdf

专知

15+阅读 · 2022年2月16日

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

WWW2020|基于知识图谱的负采样模型在推荐系统中的应用(已开源)

THU数据派

10+阅读 · 2020年4月3日

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

【Google-CMU】元伪标签的元学习，Meta Pseudo Labels

专知

48+阅读 · 2020年3月30日

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

【WWW2020-新加坡国立大学】知识图谱强化负采样的推荐系统，Reinforced Negative Sampling

专知

22+阅读 · 2020年3月14日

使用 Keras Tuner 调节超参数

使用 Keras Tuner 调节超参数

TensorFlow

15+阅读 · 2020年2月6日

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

集多种半监督学习范式为一体，谷歌新研究提出新型半监督方法 MixMatch

机器之心

11+阅读 · 2019年6月3日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

论文公布啦！腾讯AI Lab开源最大规模多标签图像数据集，刷新行业数据集基准

专知

10+阅读 · 2019年1月8日

深度学习超参数搜索实用指南

深度学习超参数搜索实用指南

云栖社区

28+阅读 · 2018年10月14日

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

学界 | 深度学习在单图像超分辨率上的应用：SRCNN、Perceptual loss、SRResNet

机器之心

12+阅读 · 2017年11月7日

相关论文

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

The Pragmatic Frames of Spurious Correlations in Machine Learning: Interpreting How and Why They Matter

Arxiv

0+阅读 · 5月4日

SIEVES: Selective Prediction Generalizes through Visual Evidence Scoring

Arxiv

0+阅读 · 4月28日

Evaluating Interactive 2D Visualization as a Sample Selection Strategy for Biomedical Time-Series Data Annotation

Arxiv

0+阅读 · 3月27日

Revisiting Gene Ontology Knowledge Discovery with Hierarchical Feature Selection and Virtual Study Group of AI Agents

Arxiv

0+阅读 · 3月20日

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Arxiv

0+阅读 · 3月11日

BrowseComp-$V^3$: A Visual, Vertical, and Verifiable Benchmark for Multimodal Browsing Agents

Arxiv

0+阅读 · 2月24日

The Invisible Gorilla Effect in Out-of-distribution Detection

Arxiv

0+阅读 · 2月23日

Discover, Segment, and Select: A Progressive Mechanism for Zero-shot Camouflaged Object Segmentation

Arxiv

0+阅读 · 2月23日

Learning Adaptive Pseudo-Label Selection for Semi-Supervised 3D Object Detection

Arxiv

0+阅读 · 2月20日

OODBench: Out-of-Distribution Benchmark for Large Vision-Language Models

Arxiv

0+阅读 · 2月20日

相关基金

删失数据超高维共线性模型的变量选择

国家自然科学基金

0+阅读 · 2017年12月31日

方差正则化的分类模型选择方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

无线传感器网络中高效的虚假数据过滤方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

面向异分布数据的主动学习方法

国家自然科学基金

12+阅读 · 2015年12月31日

基于异构信息网络的分类算法推荐方法研究

国家自然科学基金

7+阅读 · 2015年12月31日

复杂数据模型中的分布逼近方法

国家自然科学基金

3+阅读 · 2014年12月31日

社交网络环境下基于协同过滤的上下文感知推荐系统研究

国家自然科学基金

6+阅读 · 2014年12月31日

基于超像素稀疏表示的图像超分辨率方法研究

国家自然科学基金

1+阅读 · 2014年12月31日

动态群稀疏约束场景知识建模的感兴趣监控目标超分辨率重建

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员