When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra - 专知论文

会员服务 ·

0

不确定 · 不确定性 · 分子 · 注释（编程） · 结构 ·

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

翻译：何时应信任注释？基于选择性预测的质谱分子结构检索

Mira Jürgens,Gaetan De Waele,Morteza Rakhshaninejad,Willem Waegeman

Machine learning methods for identifying molecular structures from tandem mass spectra (MS/MS) have advanced rapidly, yet current approaches still exhibit significant error rates. In high-stakes applications such as clinical metabolomics and environmental screening, incorrect annotations can have serious consequences, making it essential to determine when a prediction can be trusted. We introduce a selective prediction framework for molecular structure retrieval from MS/MS spectra, enabling models to abstain from predictions when uncertainty is too high. We formulate the problem within the risk-coverage tradeoff framework and comprehensively evaluate uncertainty quantification strategies at two levels of granularity: fingerprint-level uncertainty over predicted molecular fingerprint bits, and retrieval-level uncertainty over candidate rankings. We compare scoring functions including first-order confidence measures, aleatoric and epistemic uncertainty estimates from second-order distributions, as well as distance-based measures in the latent space. All experiments are conducted on the MassSpecGym benchmark. Our analysis reveals that while fingerprint-level uncertainty scores are poor proxies for retrieval success, computationally inexpensive first-order confidence measures and retrieval-level aleatoric uncertainty achieve strong risk-coverage tradeoffs across evaluation settings. We demonstrate that by applying distribution-free risk control via generalization bounds, practitioners can specify a tolerable error rate and obtain a subset of annotations satisfying that constraint with high probability.

翻译：从串联质谱（MS/MS）中识别分子结构的机器学习方法发展迅速，但现有方法仍存在显著错误率。在临床代谢组学和环境筛查等高风险应用中，错误的注释可能带来严重后果，因此确定何时可以信任预测至关重要。我们提出了一种从MS/MS谱图中检索分子结构的选择性预测框架，使模型在不确定性过高时能够拒绝预测。我们将该问题置于风险-覆盖权衡框架中，并在两个粒度级别全面评估不确定性量化策略：预测分子指纹位点的指纹级不确定性，以及候选排序的检索级不确定性。我们比较了多种评分函数，包括一阶置信度度量、来自二阶分布的偶然性和认知性不确定性估计，以及潜在空间中的距离度量。所有实验均在MassSpecGym基准测试集上进行。分析表明，虽然指纹级不确定性评分难以有效反映检索成功率，但计算成本低廉的一阶置信度度量和检索级偶然性不确定性在各类评估场景中均实现了优异的风险-覆盖权衡。我们通过泛化边界应用无分布风险控制方法证明，实践者可以指定可容忍的错误率，并以高概率获得满足该约束的注释子集。

0

相关内容

不确定

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【牛津大学博士论文】用于姿态验证、亲和度预测和输入归因的深度神经网络，133页pdf

【牛津大学博士论文】用于姿态验证、亲和度预测和输入归因的深度神经网络，133页pdf

专知会员服务

13+阅读 · 2023年7月30日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

20+阅读 · 2022年10月28日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

专知会员服务

13+阅读 · 2022年3月15日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

专知会员服务

24+阅读 · 2022年2月27日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

22+阅读 · 2021年12月4日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

开放知识图谱

22+阅读 · 2019年7月24日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

开放知识图谱

24+阅读 · 2018年4月10日

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Arxiv

0+阅读 · 3月10日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

De novo molecular structure elucidation from mass spectra via flow matching

Arxiv

0+阅读 · 2月23日

Post-reduction inference for confidence sets of models

Arxiv

0+阅读 · 2月21日

SpecTUS: Spectral Translator for Unknown Structures annotation from EI-MS spectra

Arxiv

0+阅读 · 2月20日

Selection and Collider Restriction Bias Due to Predictor Availability in Prognostic Models

Arxiv

0+阅读 · 2月19日

Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?

Arxiv

0+阅读 · 2月18日

Cardinality-Preserving Attention Channels for Graph Transformers in Molecular Property Prediction

Arxiv

0+阅读 · 2月14日

Predicting fixed-sample test decisions enables anytime-valid inference

Arxiv

0+阅读 · 2月14日

Generative structural elucidation from mass spectra as an iterative optimization problem

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

注释（编程）

最新内容

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

1+阅读 · 23分钟前

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

2+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

2+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

2+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

5+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

6+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

3+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

4+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

4+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

4+阅读 · 6月17日

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

《韩国国防政策与军备出口：韩国安全与国防政策如何塑造其国防工业与军备出口格局》最新100页报告

专知会员服务

3+阅读 · 6月17日

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

ICML 2026 | VOTP：用视频基础模型与最优传输，让离线偏好强化学习只需少量反馈

专知会员服务

5+阅读 · 6月16日

多模态代码智能综述：从视觉输入到可执行代码系统

多模态代码智能综述：从视觉输入到可执行代码系统

专知会员服务

7+阅读 · 6月16日

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

美国马六甲“三重网”概念：安全网、威慑网与杀伤网

专知会员服务

5+阅读 · 6月16日

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

《面向导弹有效发射时机的监督机器学习方法：基于超视距空战仿真》

专知会员服务

6+阅读 · 6月16日

相关VIP内容

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

专知会员服务

24+阅读 · 2025年8月14日

【牛津大学博士论文】用于姿态验证、亲和度预测和输入归因的深度神经网络，133页pdf

【牛津大学博士论文】用于姿态验证、亲和度预测和输入归因的深度神经网络，133页pdf

专知会员服务

13+阅读 · 2023年7月30日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

20+阅读 · 2022年10月28日

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

MIT最新论文《对可解释特征的需求：动机和分类》：在机器学习模型的组成元素中建立可解释性

专知会员服务

25+阅读 · 2022年6月30日

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

【Alex Nowak-Vila博士论文】有理论保证的结构化预测， Structured Prediction with Theoretical Guarantees

专知会员服务

13+阅读 · 2022年3月15日

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

【AAAI 2022】机器学习模型的解释方法效果如何？MIT、微软学者为你解读，Do Feature Attribution Methods Correctly Attribute Features?

专知会员服务

31+阅读 · 2022年3月12日

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

专知会员服务

24+阅读 · 2022年2月27日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

22+阅读 · 2021年12月4日

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

ISWC2020最佳论文《可解释假信息检测的链接可信度评价》

专知会员服务

20+阅读 · 2020年11月7日

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

【AAAI 2019 Tutorial】不确定性下基于知识的顺序决策（Knowledge-based Sequential Decision-Making under Uncertainty），张世琦，Mohan Sridharan

专知会员服务

13+阅读 · 2019年11月18日

热门VIP内容

开通专知VIP会员享更多权益服务

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

学习数据的几何：形状空间分析数学综述

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

相关资讯

您可以相信模型的不确定性吗？

您可以相信模型的不确定性吗？

TensorFlow

14+阅读 · 2020年1月31日

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

知识图谱|最近三年知识图谱在动态以及时间预测与补全上必读的6篇论文（收藏一下）

AINLP

75+阅读 · 2020年1月14日

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

金融时序预测中的深度学习方法综述: 从2005到2019，附63页pdf下载

专知

70+阅读 · 2019年12月4日

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

论文浅尝 | 知识图谱中的链接预测：一种基于层次约束的方法

开放知识图谱

22+阅读 · 2019年7月24日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

近期必读的10篇【可解释性】相关论文和代码（AAAI、CVPR、WSDM）

专知

116+阅读 · 2019年4月9日

论文浅尝 | Interaction Embeddings for Prediction and Explanation

论文浅尝 | Interaction Embeddings for Prediction and Explanation

开放知识图谱

11+阅读 · 2019年2月1日

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

每日论文 | 从RNN中学习可解释结构；高效参数迁移和多任务学习的方法；图形CNN和树搜索解决NP困难问题

论智

13+阅读 · 2018年10月28日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

论文浅尝 | 变分知识图谱推理：在KG中引入变分推理框架

开放知识图谱

24+阅读 · 2018年4月10日

相关论文

The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?

Arxiv

0+阅读 · 3月10日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

De novo molecular structure elucidation from mass spectra via flow matching

Arxiv

0+阅读 · 2月23日

Post-reduction inference for confidence sets of models

Arxiv

0+阅读 · 2月21日

SpecTUS: Spectral Translator for Unknown Structures annotation from EI-MS spectra

Arxiv

0+阅读 · 2月20日

Selection and Collider Restriction Bias Due to Predictor Availability in Prognostic Models

Arxiv

0+阅读 · 2月19日

Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?

Arxiv

0+阅读 · 2月18日

Cardinality-Preserving Attention Channels for Graph Transformers in Molecular Property Prediction

Arxiv

0+阅读 · 2月14日

Predicting fixed-sample test decisions enables anytime-valid inference

Arxiv

0+阅读 · 2月14日

Generative structural elucidation from mass spectra as an iterative optimization problem

Arxiv

0+阅读 · 2月7日

相关基金

基于参数和结构优化的置信规则库推理方法研究

国家自然科学基金

5+阅读 · 2015年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

不确定知识图谱中面向结构查询的众包清洗研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于下一代测序技术的重复基因结构及拷贝数目变异与癌症关联性研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

数据内在结构和稀疏保持的大间隔分类方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

试验设计中的模型选择

国家自然科学基金

6+阅读 · 2014年12月31日

广义线性模型的组变量选择及其在信用评分中的应用

国家自然科学基金

2+阅读 · 2014年12月31日

蛋白质结构类预测中的特征信息提取与分类算法研究

国家自然科学基金

1+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员