Small molecule retrieval from tandem mass spectrometry: what are we optimizing for? - 专知论文

会员服务 ·

0

分子 · 损失 · 损失函数 · 小分子 · MS ·

Small molecule retrieval from tandem mass spectrometry: what are we optimizing for?

翻译：串联质谱中的小分子检索：我们优化的是什么？

Gaetan De Waele,Marek Wydmuch,Krzysztof Dembczyński,Wojciech Kotłowski,Willem Waegeman

One of the central challenges in the computational analysis of liquid chromatography-tandem mass spectrometry (LC-MS/MS) data is to identify the compounds underlying the output spectra. In recent years, this problem is increasingly tackled using deep learning methods. A common strategy involves predicting a molecular fingerprint vector from an input mass spectrum, which is then used to search for matches in a chemical compound database. While various loss functions are employed in training these predictive models, their impact on model performance remains poorly understood. In this study, we investigate commonly used loss functions, deriving novel regret bounds that characterize when Bayes-optimal decisions for these objectives must diverge. Our results reveal a fundamental trade-off between the two objectives of (1) fingerprint similarity and (2) molecular retrieval. Optimizing for more accurate fingerprint predictions typically worsens retrieval results, and vice versa. Our theoretical analysis shows this trade-off depends on the similarity structure of candidate sets, providing guidance for loss function and fingerprint selection.

翻译：液相色谱-串联质谱（LC-MS/MS）数据计算分析的核心挑战之一，是识别输出谱图背后的化合物。近年来，该问题越来越多地通过深度学习方法解决。一种常见策略涉及从输入质谱预测分子指纹向量，随后利用该向量在化合物数据库中搜索匹配项。尽管在训练这些预测模型时采用了多种损失函数，但它们对模型性能的影响仍缺乏深入理解。在本研究中，我们探究了常用损失函数，推导出新颖的遗憾界，以刻画这些目标对应的贝叶斯最优决策何时必然发生分歧。研究结果表明：（1）指纹相似度与（2）分子检索这两个目标之间存在根本性权衡。优化更精确的指纹预测通常会恶化检索结果，反之亦然。我们的理论分析表明，这种权衡取决于候选集的相似性结构，为损失函数和指纹选择提供了指导依据。

0

相关内容

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

基于深度学习和传统打分函数的配体构象优化框架

基于深度学习和传统打分函数的配体构象优化框架

专知会员服务

14+阅读 · 2023年1月9日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

20+阅读 · 2022年10月28日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

深度学习中的单阶段小目标检测方法综述

深度学习中的单阶段小目标检测方法综述

专知会员服务

47+阅读 · 2021年11月23日

几何深度学习分子表示综述

几何深度学习分子表示综述

专知会员服务

41+阅读 · 2021年9月7日

基于深度学习的小目标检测方法综述

专知会员服务

125+阅读 · 2021年4月29日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知会员服务

78+阅读 · 2020年8月31日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

专知会员服务

45+阅读 · 2020年2月14日

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

手性磷酸和过渡金属共催化的串联反应研究：高对映选择性地合成杂环化合物

国家自然科学基金

1+阅读 · 2015年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

在线电场驱动聚焦预富集-超高效液相色谱联用在全氟化合物分析中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于量子力学的算子谱理论问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于激发态分子内质子转移调控的接力识别荧光探针研究

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

图的谱方法及其在纳米尺度集成电路分析优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

过渡金属亲金属键作用本质及其配合物光学性能构效的客场弱键串联调控

国家自然科学基金

0+阅读 · 2014年12月31日

线性算子的谱结构及其扰动分析

国家自然科学基金

0+阅读 · 2014年12月31日

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Arxiv

0+阅读 · 3月11日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

MultiPUFFIN: A Multimodal Domain-Constrained Foundation Model for Molecular Property Prediction of Small Molecules

Arxiv

0+阅读 · 3月1日

De novo molecular structure elucidation from mass spectra via flow matching

Arxiv

0+阅读 · 2月23日

SpecTUS: Spectral Translator for Unknown Structures annotation from EI-MS spectra

Arxiv

0+阅读 · 2月20日

Amortized Molecular Optimization via Group Relative Policy Optimization

Arxiv

0+阅读 · 2月12日

Decentralized Non-convex Stochastic Optimization with Heterogeneous Variance

Arxiv

0+阅读 · 2月12日

Sample Efficient Generative Molecular Optimization with Joint Self-Improvement

Arxiv

0+阅读 · 2月11日

Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition

Arxiv

0+阅读 · 2月9日

Generative structural elucidation from mass spectra as an iterative optimization problem

Arxiv

0+阅读 · 2月7日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

19+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

【CMU博士论文】优化的新视角：应对数据中毒、解决欧几里得优化问题，以及学习最小最大最优估计器。

专知会员服务

20+阅读 · 2024年12月5日

基于深度学习和传统打分函数的配体构象优化框架

基于深度学习和传统打分函数的配体构象优化框架

专知会员服务

14+阅读 · 2023年1月9日

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

《随机森林排列特征在离子迁移光谱特征选择中的重要性》2022最新美国陆军研究实验室24页论文

专知会员服务

20+阅读 · 2022年10月28日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

深度学习中的单阶段小目标检测方法综述

深度学习中的单阶段小目标检测方法综述

专知会员服务

47+阅读 · 2021年11月23日

几何深度学习分子表示综述

几何深度学习分子表示综述

专知会员服务

41+阅读 · 2021年9月7日

基于深度学习的小目标检测方法综述

专知会员服务

125+阅读 · 2021年4月29日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知会员服务

78+阅读 · 2020年8月31日

超越三元组:基于超关系知识图谱嵌入的链接预测，Beyond Triplets: Hyper-Relational Knowledge Graph Embedding for Link Prediction

专知会员服务

78+阅读 · 2020年5月11日

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

大型知识图谱检索算法的优化，19页pdf，Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs

专知会员服务

45+阅读 · 2020年2月14日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

联邦学习如何处理异质性？港科大最新《异质联邦学习》综述，46页pdf全面阐述异质联邦学习的数据空间、统计、系统和模型异质性

专知

11+阅读 · 2022年12月1日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

如何将知识图谱特征学习应用到推荐系统？

如何将知识图谱特征学习应用到推荐系统？

AI100

16+阅读 · 2018年6月10日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

从传统方法到深度学习，人脸关键点检测方法综述

从传统方法到深度学习，人脸关键点检测方法综述

机器之心

14+阅读 · 2017年12月17日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

相关论文

When should we trust the annotation? Selective prediction for molecular structure retrieval from mass spectra

Arxiv

0+阅读 · 3月11日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

MultiPUFFIN: A Multimodal Domain-Constrained Foundation Model for Molecular Property Prediction of Small Molecules

Arxiv

0+阅读 · 3月1日

De novo molecular structure elucidation from mass spectra via flow matching

Arxiv

0+阅读 · 2月23日

SpecTUS: Spectral Translator for Unknown Structures annotation from EI-MS spectra

Arxiv

0+阅读 · 2月20日

Amortized Molecular Optimization via Group Relative Policy Optimization

Arxiv

0+阅读 · 2月12日

Decentralized Non-convex Stochastic Optimization with Heterogeneous Variance

Arxiv

0+阅读 · 2月12日

Sample Efficient Generative Molecular Optimization with Joint Self-Improvement

Arxiv

0+阅读 · 2月11日

Differentiable Logic Synthesis: Spectral Coefficient Selection via Sinkhorn-Constrained Composition

Arxiv

0+阅读 · 2月9日

Generative structural elucidation from mass spectra as an iterative optimization problem

Arxiv

0+阅读 · 2月7日

相关基金

手性磷酸和过渡金属共催化的串联反应研究：高对映选择性地合成杂环化合物

国家自然科学基金

1+阅读 · 2015年12月31日

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

国家自然科学基金

0+阅读 · 2015年12月31日

在线电场驱动聚焦预富集-超高效液相色谱联用在全氟化合物分析中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于量子力学的算子谱理论问题研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于分层图结构化稀疏低秩表示的目标联合分割方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于激发态分子内质子转移调控的接力识别荧光探针研究

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

图的谱方法及其在纳米尺度集成电路分析优化中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

过渡金属亲金属键作用本质及其配合物光学性能构效的客场弱键串联调控

国家自然科学基金

0+阅读 · 2014年12月31日

线性算子的谱结构及其扰动分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员