De novo molecular structure elucidation from mass spectra via flow matching - 专知论文

会员服务 ·

0

分子 · 结构 · 流匹配 · 解码 · 分析 ·

De novo molecular structure elucidation from mass spectra via flow matching

翻译：基于流匹配从质谱数据中从头解析分子结构

Ghaith Mqawass,Tuan Le,Fabian Theis,Djork-Arné Clevert

from arxiv, 13-page preprint, 4 figures, 1 table

Mass spectrometry is a powerful and widely used tool for identifying molecular structures due to its sensitivity and ability to profile complex samples. However, translating spectra into full molecular structures is a difficult, under-defined inverse problem. Overcoming this problem is crucial for enabling biological insight, discovering new metabolites, and advancing chemical research across multiple fields. To this end, we develop MSFlow, a two-stage encoder-decoder flow-matching generative model that achieves state-of-the-art performance on the structure elucidation task for small molecules. In the first stage, we adopt a formula-restricted transformer model for encoding mass spectra into a continuous and chemically informative embedding space, while in the second stage, we train a decoder flow matching model to reconstruct molecules from latent embeddings of mass spectra. We present ablation studies demonstrating the importance of using information-preserving molecular descriptors for encoding mass spectra and motivate the use of our discrete flow-based decoder. Our rigorous evaluation demonstrates that MSFlow can accurately translate up to 45 percent of molecular mass spectra into their corresponding molecular representations - an improvement of up to fourteen-fold over the current state-of-the-art. A trained version of MSFlow is made publicly available on GitHub for non-commercial users.

翻译：质谱分析因其高灵敏度和分析复杂样品的能力，已成为鉴定分子结构的重要且广泛应用的技术。然而，将质谱图转化为完整的分子结构是一个困难且定义不明确的逆问题。解决这一问题对于获取生物学见解、发现新代谢物以及推动多个领域的化学研究至关重要。为此，我们开发了MSFlow，一种两阶段的编码器-解码器流匹配生成模型，该模型在小分子结构解析任务上实现了最先进的性能。在第一阶段，我们采用一种受分子式限制的Transformer模型，将质谱图编码到一个连续且富含化学信息的嵌入空间中；在第二阶段，我们训练一个解码器流匹配模型，从质谱图的潜在嵌入中重建分子。我们通过消融研究证明了使用信息保留型分子描述符对质谱图进行编码的重要性，并论证了我们基于离散流的解码器的优势。严格的评估表明，MSFlow能够将高达45%的分子质谱图准确转化为其对应的分子表示——这比当前最先进方法的性能提升了高达十四倍。MSFlow的训练版本已在GitHub上公开，供非商业用户使用。

0

相关内容

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

专知会员服务

12+阅读 · 2024年2月29日

【斯坦福博士论文】使用等变神经网络高效学习三维分子结构，154页pdf

【斯坦福博士论文】使用等变神经网络高效学习三维分子结构，154页pdf

专知会员服务

20+阅读 · 2024年2月14日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

【AI+医疗】图表示学习的结构蛋白质组学综述，休斯顿Rice大学

【AI+医疗】图表示学习的结构蛋白质组学综述，休斯顿Rice大学

专知会员服务

23+阅读 · 2022年6月20日

【ICLR2022】MIT最新论文《用于分子生成的数据高效图文法学习》，用图文法生成新分子，Data-Efficient Graph Grammar Learning for Molecular Generation

【ICLR2022】MIT最新论文《用于分子生成的数据高效图文法学习》，用图文法生成新分子，Data-Efficient Graph Grammar Learning for Molecular Generation

专知会员服务

14+阅读 · 2022年4月10日

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

专知会员服务

24+阅读 · 2022年2月27日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

22+阅读 · 2021年12月4日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

专知

12+阅读 · 2022年4月15日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

综述 | 异质信息网络分析与应用综述

综述 | 异质信息网络分析与应用综述

专知

27+阅读 · 2020年8月8日

知识图谱的自动构建

知识图谱的自动构建

DataFunTalk

58+阅读 · 2019年12月9日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题

论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题

开放知识图谱

27+阅读 · 2018年5月17日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

流场环境下打结高分子链的构象及动力学行为的研究

国家自然科学基金

0+阅读 · 2015年12月31日

催化剂固体表界面结构的原位高分辨电子显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于磁性金属有机骨架材料的低丰度蛋白/肽段高效选择分离分析新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

化学图的谱及相关性质

国家自然科学基金

0+阅读 · 2015年12月31日

基于电荷诱导光吸收谱技术的有机体异质结-电解质溶液界面处载流子传输动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能谱/谱元方法研究及其在多相复杂流体中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

重油组成矩阵的分子水平构建及基于结构导向集总的催化裂化反应动力学模型

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

线性算子的谱结构及其扰动分析

国家自然科学基金

0+阅读 · 2014年12月31日

Tabular foundation models for in-context prediction of molecular properties

Arxiv

0+阅读 · 4月17日

Smooth Flow Matching for Synthesizing Functional Data

Arxiv

0+阅读 · 4月5日

MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

Arxiv

0+阅读 · 3月25日

DMMRL: Disentangled Multi-Modal Representation Learning via Variational Autoencoders for Molecular Property Prediction

Arxiv

0+阅读 · 3月22日

A scalable Bayesian functional factor model for high-dimensional longitudinal molecular data

Arxiv

0+阅读 · 3月21日

Principal Decomposition with Nested Submanifolds

Arxiv

0+阅读 · 3月21日

SpectraLLM: Uncovering the Ability of LLMs for Molecule Structure Elucidation from Multi-Spectral

Arxiv

0+阅读 · 3月21日

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

Arxiv

0+阅读 · 3月11日

MolFORM: Preference-Aligned Multimodal Flow Matching for Structure-Based Drug Design

Arxiv

0+阅读 · 2月25日

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Arxiv

0+阅读 · 2月24日

VIP会员

文章信息

相关主题

最新内容

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

专知会员服务

1+阅读 · 今天15:43

比利时发布用于实时战场军事装备识别的离线人工智能系统

比利时发布用于实时战场军事装备识别的离线人工智能系统

专知会员服务

1+阅读 · 今天15:41

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

专知会员服务

1+阅读 · 今天15:37

超越网格：作战环境对炮兵的影响

超越网格：作战环境对炮兵的影响

专知会员服务

1+阅读 · 今天15:35

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

KDD 2026 | MixRAGRec：面向LLM推荐的混合专家KG-RAG框架

专知会员服务

4+阅读 · 今天12:11

综述 | 推理时控制：可信大语言模型的运行时治理全景

综述 | 推理时控制：可信大语言模型的运行时治理全景

专知会员服务

3+阅读 · 今天12:10

BES：让语言模型通过双向进化搜索自我改进

BES：让语言模型通过双向进化搜索自我改进

专知会员服务

4+阅读 · 5月30日

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

ICML 2026 | 揭开视觉语言模型计数瓶颈：看得到，却说不出

专知会员服务

5+阅读 · 5月30日

以色列-美国-伊朗战争中的无人机：关键要点

以色列-美国-伊朗战争中的无人机：关键要点

专知会员服务

4+阅读 · 5月30日

美以伊战争：首次人工智能战争——军事自主性困境

美以伊战争：首次人工智能战争——军事自主性困境

专知会员服务

5+阅读 · 5月30日

《Palantir任务保障性软件安全标准（MA-S2）》

《Palantir任务保障性软件安全标准（MA-S2）》

专知会员服务

14+阅读 · 5月30日

《美海军利用扩展现实增强知识流动研究》300页报告

《美海军利用扩展现实增强知识流动研究》300页报告

专知会员服务

8+阅读 · 5月30日

基于声学的无人机检测技术综述

基于声学的无人机检测技术综述

专知会员服务

8+阅读 · 5月30日

《当代混合战争分析框架：俄乌战争经验教训》

《当代混合战争分析框架：俄乌战争经验教训》

专知会员服务

9+阅读 · 5月30日

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

12+阅读 · 5月29日

相关VIP内容

谱聚类与图结构学习的全面综述

谱聚类与图结构学习的全面综述

专知会员服务

19+阅读 · 2025年1月25日

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

【ICLR2024】3D-MoLM：增强语言模型对分子3D空间结构的理解

专知会员服务

12+阅读 · 2024年2月29日

【斯坦福博士论文】使用等变神经网络高效学习三维分子结构，154页pdf

【斯坦福博士论文】使用等变神经网络高效学习三维分子结构，154页pdf

专知会员服务

20+阅读 · 2024年2月14日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

分子表示如何用图学习？圣母大学等《图分子表示学习》最新简明综述，表述方法、数据集、应用等

专知会员服务

27+阅读 · 2022年7月12日

【AI+医疗】图表示学习的结构蛋白质组学综述，休斯顿Rice大学

【AI+医疗】图表示学习的结构蛋白质组学综述，休斯顿Rice大学

专知会员服务

23+阅读 · 2022年6月20日

【ICLR2022】MIT最新论文《用于分子生成的数据高效图文法学习》，用图文法生成新分子，Data-Efficient Graph Grammar Learning for Molecular Generation

【ICLR2022】MIT最新论文《用于分子生成的数据高效图文法学习》，用图文法生成新分子，Data-Efficient Graph Grammar Learning for Molecular Generation

专知会员服务

14+阅读 · 2022年4月10日

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习

专知会员服务

24+阅读 · 2022年2月27日

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

NeurIPS 2021 | 通过动态图评分匹配预测分子构象

专知会员服务

22+阅读 · 2021年12月4日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

比利时发布用于实时战场军事装备识别的离线人工智能系统

超越网格：作战环境对炮兵的影响

美以伊冲突中的人工智能应用：人工智能工具、部署策略及作战影响分析

《经济冲击与战略损失：美伊军事冲突的不可持续成本》

相关资讯

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

【2022新书】谱图理论，Spectral Graph Theory，100页pdf

专知

12+阅读 · 2022年4月15日

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

南理工最新「深度学习细粒度图像分析」综述论文，带你全面了解细粒度图像识别与检索方法

专知

12+阅读 · 2021年11月21日

最新《图嵌入组合优化》综述论文，40页pdf

最新《图嵌入组合优化》综述论文，40页pdf

专知

41+阅读 · 2020年8月31日

综述 | 异质信息网络分析与应用综述

综述 | 异质信息网络分析与应用综述

专知

27+阅读 · 2020年8月8日

知识图谱的自动构建

知识图谱的自动构建

DataFunTalk

58+阅读 · 2019年12月9日

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

【论文笔记和代码梳理】RippleNet：基于知识图谱的用户偏好传播

专知

42+阅读 · 2019年4月9日

详解GAN的谱归一化（Spectral Normalization）

详解GAN的谱归一化（Spectral Normalization）

PaperWeekly

11+阅读 · 2019年2月13日

图神经网络最近这么火，不妨看看我们精选的这七篇

图神经网络最近这么火，不妨看看我们精选的这七篇

人工智能前沿讲习班

37+阅读 · 2018年12月10日

论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题

论文浅尝 | 基于知识图谱的子图匹配回答自然语言问题

开放知识图谱

27+阅读 · 2018年5月17日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

相关论文

Tabular foundation models for in-context prediction of molecular properties

Arxiv

0+阅读 · 4月17日

Smooth Flow Matching for Synthesizing Functional Data

Arxiv

0+阅读 · 4月5日

MolEvolve: LLM-Guided Evolutionary Search for Interpretable Molecular Optimization

Arxiv

0+阅读 · 3月25日

DMMRL: Disentangled Multi-Modal Representation Learning via Variational Autoencoders for Molecular Property Prediction

Arxiv

0+阅读 · 3月22日

A scalable Bayesian functional factor model for high-dimensional longitudinal molecular data

Arxiv

0+阅读 · 3月21日

Principal Decomposition with Nested Submanifolds

Arxiv

0+阅读 · 3月21日

SpectraLLM: Uncovering the Ability of LLMs for Molecule Structure Elucidation from Multi-Spectral

Arxiv

0+阅读 · 3月21日

NMIRacle: Multi-modal Generative Molecular Elucidation from IR and NMR Spectra

Arxiv

0+阅读 · 3月11日

MolFORM: Preference-Aligned Multimodal Flow Matching for Structure-Based Drug Design

Arxiv

0+阅读 · 2月25日

Region of Interest Segmentation and Morphological Analysis for Membranes in Cryo-Electron Tomography

Arxiv

0+阅读 · 2月24日

相关基金

流场环境下打结高分子链的构象及动力学行为的研究

国家自然科学基金

0+阅读 · 2015年12月31日

催化剂固体表界面结构的原位高分辨电子显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于磁性金属有机骨架材料的低丰度蛋白/肽段高效选择分离分析新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

化学图的谱及相关性质

国家自然科学基金

0+阅读 · 2015年12月31日

基于电荷诱导光吸收谱技术的有机体异质结-电解质溶液界面处载流子传输动力学研究

国家自然科学基金

0+阅读 · 2015年12月31日

高性能谱/谱元方法研究及其在多相复杂流体中的应用

国家自然科学基金

0+阅读 · 2014年12月31日

重油组成矩阵的分子水平构建及基于结构导向集总的催化裂化反应动力学模型

国家自然科学基金

0+阅读 · 2014年12月31日

四阶微分方程的谱和谱元方法

国家自然科学基金

0+阅读 · 2014年12月31日

某些分形集上拉普拉斯算子的谱分析及相关问题

国家自然科学基金

0+阅读 · 2014年12月31日

线性算子的谱结构及其扰动分析

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员