HonestAffinity: Leak-Aware Evaluation of Protein and Pocket Priors for Binding Affinity Prediction

Sequence-based deep learning offers a scalable alternative to structure-based scoring for protein-ligand binding affinity prediction. However, progress is hard to interpret when architectural priors are evaluated on canonical PDBbind-style splits that leak similarity classes across folds. We present HonestAffinity, a compact 1D-input predictor to isolate two priors under a leak-aware protocol: frozen ESM-2 (650M) protein embeddings and a learned binary pocket-position marker. We evaluate a multi-scale convolutional/Transformer template in three variants: HonestAffinity-Pocket, HonestAffinity-NoPocket, and HonestAffinity-Pocket-NoESM. All three train on 11,513 LP-PDBBind complexes in ~3 GPU-hours. We benchmark against five baselines on the LP-PDBBind 3-tier no-leak hold-out, CASF-2016, and a CASF-2016 non-train subset. Our central finding is a split-conditioned reversal rather than a uniformly best prior: HonestAffinity-Pocket achieves the best mean Pearson R on validation and CASF-2016 splits, whereas HonestAffinity-Pocket-NoESM achieves the best mean Pearson R on every strict LP no-leak tier (test_cl1-cl3). Both the pocket marker and ESM-2 input improve performance on familiar splits but reduce Pearson R on strict no-leak tiers. We argue models should report paired canonical and leak-proof ablations, and that deployment-regime-matched variants better describe these reversals than a single default. Code and scripts are linked in the footnote; checkpoints will be released upon acceptance.

翻译：基于序列的深度学习为蛋白质-配体结合亲和力预测提供了一种可扩展的结构评分替代方案。然而，当架构先验在标准的PDBbind风格划分上进行评估时（这些划分会在不同折间泄露相似类别），进展难以解读。我们提出了HonestAffinity，一个紧凑的1D输入预测器，用于在泄漏感知协议下隔离两种先验：冻结的ESM-2（650M）蛋白质嵌入和一个可学习的二元口袋位置标记。我们以三种变体评估了一个多尺度卷积/Transformer模板：HonestAffinity-Pocket、HonestAffinity-NoPocket和HonestAffinity-Pocket-NoESM。所有三个变体均在11,513个LP-PDBBind复合物上训练，耗时约3个GPU小时。我们在LP-PDBBind三级无泄漏保留集、CASF-2016以及CASF-2016非训练子集上，与五个基线进行了对比。我们的核心发现是一种基于划分条件的结果反转，而非统一的最优先验：HonestAffinity-Pocket在验证集和CASF-2016划分上取得了最佳平均皮尔逊R，而HonestAffinity-Pocket-NoESM在每个严格的LP无泄漏等级（test_cl1-cl3）上均取得了最佳平均皮尔逊R。口袋标记和ESM-2输入在熟悉划分上均提升了性能，但在严格无泄漏等级上降低了皮尔逊R。我们认为模型应报告成对的规范化与防泄漏消融实验，且与部署场景匹配的变体比单一默认设置能更好地描述这些反转。代码和脚本附于脚注链接中；检查点将在接收后发布。