Lipophilicity (logP) prediction remains central to drug discovery, yet linear regression models for this task frequently violate statistical assumptions in ways that invalidate their reported performance metrics. We analyzed 426,850 bioactive molecules from a rigorously curated intersection of PubChem, ChEMBL, and eMolecules databases, revealing severe heteroskedasticity in linear models predicting computed logP values (XLOGP3): residual variance increases 4.2-fold in lipophilic regions (logP greater than 5) compared to balanced regions (logP 2 to 4). Classical remediation strategies (Weighted Least Squares and Box-Cox transformation) failed to resolve this violation (Breusch-Pagan p-value less than 0.0001 for all variants). Tree-based ensemble methods (Random Forest R-squared of 0.764, XGBoost R-squared of 0.765) proved inherently robust to heteroskedasticity while delivering superior predictive performance. SHAP analysis resolved a critical multicollinearity paradox: despite a weak bivariate correlation of 0.146, molecular weight emerged as the single most important predictor (mean absolute SHAP value of 0.573), with its effect suppressed in simple correlations by confounding with topological polar surface area (TPSA). These findings demonstrate that standard linear models face fundamental challenges for computed lipophilicity prediction and provide a principled framework for interpreting ensemble models in QSAR applications.


翻译:亲脂性(logP)预测在药物发现中仍至关重要,但用于此任务的线性回归模型经常违反统计假设,从而使其报告的性能指标失效。我们分析了来自PubChem、ChEMBL和eMolecules数据库严格筛选交集的426,850个生物活性分子,揭示了预测计算logP值(XLOGP3)的线性模型中存在的严重异方差性:与平衡区域(logP 2至4)相比,亲脂区域(logP大于5)的残差方差增加了4.2倍。经典的补救策略(加权最小二乘法和Box-Cox变换)未能解决此违规问题(所有变体的Breusch-Pagan p值均小于0.0001)。基于树的集成方法(随机森林R平方为0.764,XGBoost R平方为0.765)被证明对异方差性具有固有的鲁棒性,同时提供了更优的预测性能。SHAP分析解决了一个关键的多重共线性悖论:尽管双变量相关性较弱(0.146),分子量却成为最重要的单一预测因子(平均绝对SHAP值为0.573),其在简单相关性中的效应因与拓扑极性表面积(TPSA)的混杂而被抑制。这些发现表明,标准线性模型在计算亲脂性预测方面面临根本性挑战,并为在QSAR应用中解释集成模型提供了一个原则性框架。

0
下载
关闭预览

相关内容

【NeurIPS2024】几何轨迹扩散模型
专知会员服务
24+阅读 · 2024年10月20日
【NeurIPS 2024 Oral】用于多条件分子生成的图扩散Transformer
专知会员服务
16+阅读 · 2024年10月5日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关VIP内容
相关基金
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员