When Molecular Similarity Works: Property Cliffs Reveal Hidden Errors - 专知论文

会员服务 ·

0

相似度 · MoDELS · Material Design · 设计 · state-of-the-art ·

When Molecular Similarity Works: Property Cliffs Reveal Hidden Errors

翻译：当分子相似性起作用时：物性悬崖揭示隐藏错误

Di Hu,Kun Li,Haojie Rao,Longtao Hu,Jiameng Chen,Wenbin Hu,Yizhen Zheng,Jiajun Yu,Duanhua Cao

from arxiv, Preprint, 22 pages, 10 figures, 11 tables. Di Hu and Kun Li contributed equally

Accurate prediction of molecular properties underpins drug discovery and material design, yet even state-of-the-art models remain vulnerable to localized failure modes that aggregate metrics cannot detect. The places where molecular similarity should be most helpful are also places where standard evaluation can be most misleading. Property cliffs expose this gap: structurally similar molecules can still differ sharply in target property, so models with competitive overall performance may fail in high-risk local neighborhoods. To expose and mitigate this failure mode, CliffSplit, a cliff-aware evaluation protocol that constructs locally supported, cliff-exposed test cases, and CliffLoss, a model-agnostic train-only mitigation mechanism for cliff-sensitive errors, are introduced. Experiments on three QM9 targets and three MoleculeNet tasks across five backbones show that CliffSplit reveals at least 15% higher error in cliff-heavy QM9 regions, while CliffLoss reduces the cliff-to-smooth error gap by up to 30% on Lipophilicity and improves overall MAE by 9.7%. Together, these results turn molecular similarity failure from a descriptive anomaly into a benchmarked evaluation problem for molecular machine learning. The code is available at https://anonymous.4open.science/r/Cliff_Loss.

翻译：分子性质的准确预测是药物发现和材料设计的基础，然而即便最先进的模型仍然容易受到聚合指标无法检测的局部失效模式影响。分子相似性本应最有帮助的地方，恰恰也是标准评估最可能产生误导的区域。物性悬崖暴露了这一差距：结构相似的分子在目标性质上仍可能差异显著，因此具有竞争性整体表现的模型可能在高风险局部邻域中失效。为揭示并缓解这一失效模式，本文引入了CliffSplit——一种构建局部支撑且暴露悬崖的测试用例的悬崖感知评估协议，以及CliffLoss——一种针对悬崖敏感性错误的模型无关纯训练缓解机制。在五个主干模型上针对三个QM9目标和三个MoleculeNet任务的实验表明，CliffSplit在悬崖密集的QM9区域揭示出至少15%更高的误差，而CliffLoss在亲脂性任务上将悬崖-平滑误差差距减少高达30%，并将整体MAE提升9.7%。这些结果共同将分子相似性失效从一种描述性异常转化为分子机器学习中可基准化的评估问题。代码见https://anonymous.4open.science/r/Cliff_Loss。

0

相关内容

相似度

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

专知会员服务

22+阅读 · 2024年8月28日

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

专知会员服务

12+阅读 · 2024年2月29日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

深度学习在分子生成和分子性质预测中的应用

深度学习在分子生成和分子性质预测中的应用

专知会员服务

36+阅读 · 2022年6月19日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

专知会员服务

24+阅读 · 2022年2月27日

【WWW2021】少样本图学习分子性质预测

【WWW2021】少样本图学习分子性质预测

专知会员服务

36+阅读 · 2021年2月20日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于SLAM的多源异型设备误差对于精确制导武器半实物仿真试验精度的影响机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构相似性的综合滤波器组优化设计理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高纯锗探测器暗物质年度调制效应和轴子暗物质的实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

高分子复合材料介观结构与宏观力学性质的模拟与关联

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

Similarity-based representation factorization for revealing interpretable dimensions in representational data

Arxiv

0+阅读 · 6月16日

MolSight: Molecular Property Prediction with Images

Arxiv

0+阅读 · 6月14日

MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 6月14日

Uncertainty Estimation for Molecular Diffusion Models

Arxiv

0+阅读 · 6月11日

When Probing Accuracy Saturates, Fragility Resolves: A Complementary Metric for LLM Pre-Training Analysis

Arxiv

0+阅读 · 6月9日

Differences in Detection: Explainability Where it Matters

Arxiv

0+阅读 · 6月5日

Learning study similarity to investigate heterogeneity in meta-analysis using LLMs and triplet loss

Arxiv

0+阅读 · 5月29日

Discovery of Hidden Miscalibration Regimes

Arxiv

0+阅读 · 5月13日

ReCoG: Relational and Compact Context Graph Learning for Few-shot Molecular Property Prediction

Arxiv

0+阅读 · 5月13日

Forensic Similarity for Speech Deepfakes

Arxiv

0+阅读 · 5月6日

VIP会员

文章信息

相关主题

Material Design

state-of-the-art

最新内容

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

7+阅读 · 今天2:06

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

5+阅读 · 今天1:37

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

3+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

5+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

4+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

7+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

4+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

6+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

6+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

5+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

4+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

6+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

8+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

【博士论文】《计算机视觉中潜在表示的不确定性》，66页pdf

专知会员服务

22+阅读 · 2024年8月28日

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

专知会员服务

12+阅读 · 2024年2月29日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

【MIT博士论文】分子图表示学习与生成的药物发现

【MIT博士论文】分子图表示学习与生成的药物发现

专知会员服务

49+阅读 · 2022年6月28日

深度学习在分子生成和分子性质预测中的应用

深度学习在分子生成和分子性质预测中的应用

专知会员服务

36+阅读 · 2022年6月19日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

专知会员服务

24+阅读 · 2022年2月27日

【WWW2021】少样本图学习分子性质预测

【WWW2021】少样本图学习分子性质预测

专知会员服务

36+阅读 · 2021年2月20日

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

语义相似性算法演化论文，29页pdf，Evolution of Semantic Similarity - A Survey

专知会员服务

44+阅读 · 2020年4月30日

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

【深度图相似学习综述】Deep Graph Similarity Learning: A Survey，29页pdf，117条参考文献

专知会员服务

98+阅读 · 2019年12月31日

热门VIP内容

开通专知VIP会员享更多权益服务

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

相关资讯

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

「PPT」深度学习中的不确定性估计

「PPT」深度学习中的不确定性估计

专知

27+阅读 · 2019年7月20日

你的算法可靠吗？神经网络不确定性度量

你的算法可靠吗？神经网络不确定性度量

专知

40+阅读 · 2019年4月27日

如何用机器学习精准辨别“背景”和“目标”

如何用机器学习精准辨别“背景”和“目标”

论智

10+阅读 · 2018年10月22日

用模型不确定性理解模型

用模型不确定性理解模型

论智

11+阅读 · 2018年9月5日

详解常见的损失函数

详解常见的损失函数

七月在线实验室

20+阅读 · 2018年7月12日

计算文本相似度常用的四种方法

计算文本相似度常用的四种方法

论智

33+阅读 · 2018年5月18日

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

隐私和机器学习：两个意想不到的盟友？一文了解差分隐私

专知

21+阅读 · 2018年5月14日

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解

机器学习研究会

19+阅读 · 2018年3月11日

各种相似性度量及Python实现

各种相似性度量及Python实现

机器学习算法与Python学习

11+阅读 · 2017年7月6日

相关论文

Similarity-based representation factorization for revealing interpretable dimensions in representational data

Arxiv

0+阅读 · 6月16日

MolSight: Molecular Property Prediction with Images

Arxiv

0+阅读 · 6月14日

MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 6月14日

Uncertainty Estimation for Molecular Diffusion Models

Arxiv

0+阅读 · 6月11日

When Probing Accuracy Saturates, Fragility Resolves: A Complementary Metric for LLM Pre-Training Analysis

Arxiv

0+阅读 · 6月9日

Differences in Detection: Explainability Where it Matters

Arxiv

0+阅读 · 6月5日

Learning study similarity to investigate heterogeneity in meta-analysis using LLMs and triplet loss

Arxiv

0+阅读 · 5月29日

Discovery of Hidden Miscalibration Regimes

Arxiv

0+阅读 · 5月13日

ReCoG: Relational and Compact Context Graph Learning for Few-shot Molecular Property Prediction

Arxiv

0+阅读 · 5月13日

Forensic Similarity for Speech Deepfakes

Arxiv

0+阅读 · 5月6日

相关基金

面向跨领域异构数据的患者相似性学习方法及应用

国家自然科学基金

23+阅读 · 2016年12月31日

测量误差数据下部分线性模型有约束统计推断理论

国家自然科学基金

2+阅读 · 2015年12月31日

量子相干性的度量及其在量子信息处理中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于SLAM的多源异型设备误差对于精确制导武器半实物仿真试验精度的影响机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

逻辑等价算子在不确定性推理中的应用

国家自然科学基金

1+阅读 · 2015年12月31日

基于结构相似性的综合滤波器组优化设计理论及应用

国家自然科学基金

1+阅读 · 2015年12月31日

逻辑错误屏蔽的近似电路逻辑综合多目标优化方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

高纯锗探测器暗物质年度调制效应和轴子暗物质的实验研究

国家自然科学基金

0+阅读 · 2015年12月31日

高分子复合材料介观结构与宏观力学性质的模拟与关联

国家自然科学基金

0+阅读 · 2014年12月31日

含有隐变量的因果结构学习与统计因果推断

国家自然科学基金

21+阅读 · 2013年12月31日

微信扫码咨询专知VIP会员