The success of deep generative models in scientific discovery requires not only the ability to generate novel candidates but also reliable guarantees that these candidates indeed satisfy desired properties. Recent conformal-prediction methods offer a path to such guarantees, but its application to generative modeling in drug discovery is limited by budget constraints, lack of oracle access, and distribution shift. To this end, we introduce ConfHit, a distribution-free framework that provides validity guarantees under these conditions. ConfHit formalizes two central questions: (i) Certification: whether a generated batch can be guaranteed to contain at least one hit with a user-specified confidence level, and (ii) Design: whether the generation can be refined to a compact set without weakening this guarantee. ConfHit leverages weighted exchangeability between historical and generated samples to eliminate the need for an experimental oracle, constructs multiple-sample density-ratio weighted conformal p-value to quantify statistical confidence in hits, and proposes a nested testing procedure to certify and refine candidate sets of multiple generated samples while maintaining statistical guarantees. Across representative generative molecule design tasks and a broad range of methods, ConfHit consistently delivers valid coverage guarantees at multiple confidence levels while maintaining compact certified sets, establishing a principled and reliable framework for generative modeling.


翻译:深度学习生成模型在科学发现中的成功不仅要求其能够生成新颖候选物,还需要可靠的保证,确保这些候选物确实满足所需特性。近期的保形预测方法为实现此类保证提供了路径,但其在药物发现生成建模中的应用受限于预算约束、缺乏预言机访问以及分布偏移。为此,我们提出了ConfHit,一个无需分布假设的框架,可在上述条件下提供有效性保证。ConfHit形式化了两个核心问题:(i) 认证:能否以用户指定的置信水平保证生成批次中至少包含一个有效命中物;(ii) 设计:能否在不削弱此保证的前提下将生成结果精炼至一个紧凑集合。ConfHit利用历史样本与生成样本之间的加权可交换性以消除对实验预言机的需求,构建多样本密度比加权保形p值以量化命中物的统计置信度,并提出一种嵌套检验程序来认证和精炼多个生成样本的候选集合,同时保持统计保证。在具有代表性的生成式分子设计任务和多种方法中,ConfHit在多个置信水平下始终提供有效的覆盖保证,同时保持紧凑的认证集合,为生成建模建立了一个原则性且可靠的框架。

0
下载
关闭预览

相关内容

AI药物设计前沿进展探讨,智药公开课今晚19:30开播!
专知会员服务
15+阅读 · 2022年6月22日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
VIP会员
相关VIP内容
AI药物设计前沿进展探讨,智药公开课今晚19:30开播!
专知会员服务
15+阅读 · 2022年6月22日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
13+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员