FragmentFlow: Scalable Transition State Generation for Large Molecules - 专知论文

会员服务 ·

0

分子 · 生成方法 · 结构 · 几何结构 · 原子 ·

FragmentFlow: Scalable Transition State Generation for Large Molecules

翻译：FragmentFlow：面向大分子的可扩展过渡态生成方法

Ron Shprints,Peter Holderrieth,Juno Nam,Rafael Gómez-Bombarelli,Tommi Jaakkola

Transition states (TSs) are central to understanding and quantitatively predicting chemical reactivity and reaction mechanisms. Although traditional TS generation methods are computationally expensive, recent generative modeling approaches have enabled chemically meaningful TS prediction for relatively small molecules. However, these methods fail to generalize to practically relevant reaction substrates because of distribution shifts induced by increasing molecular sizes. Furthermore, TS geometries for larger molecules are not available at scale, making it infeasible to train generative models from scratch on such molecules. To address these challenges, we introduce FragmentFlow: a divide-and-conquer approach that trains a generative model to predict TS geometries for the reactive core atoms, which define the reaction mechanism. The full TS structure is then reconstructed by re-attaching substituent fragments to the predicted core. By operating on reactive cores, whose size and composition remain relatively invariant across molecular contexts, FragmentFlow mitigates distribution shifts in generative modeling. Evaluated on a new curated dataset of reactions involving reactants with up to 33 heavy atoms, FragmentFlow correctly identifies 90% of TSs while requiring 30% fewer saddle-point optimization steps than classical initialization schemes. These results point toward scalable TS generation for high-throughput reactivity studies.

翻译：过渡态（TSs）是理解和定量预测化学反应性及反应机理的核心。尽管传统的过渡态生成方法计算成本高昂，但近期的生成建模方法已能对相对较小的分子进行具有化学意义的过渡态预测。然而，由于分子尺寸增大引起的分布偏移，这些方法难以推广到具有实际应用价值的反应底物。此外，大分子的过渡态几何结构无法大规模获取，这使得从头开始在此类分子上训练生成模型变得不可行。为应对这些挑战，我们提出了FragmentFlow：一种分而治之的方法，该方法训练一个生成模型来预测定义反应机理的反应核心原子的过渡态几何结构。然后，通过将取代基片段重新连接到预测的核心上，重构出完整的过渡态结构。通过对反应核心（其尺寸和组成在不同分子环境中保持相对不变）进行操作，FragmentFlow缓解了生成建模中的分布偏移问题。在一个新构建的、涉及重原子数多达33个的反应物反应数据集上的评估表明，FragmentFlow能正确识别90%的过渡态，同时比经典初始化方案所需的鞍点优化步骤减少30%。这些结果为高通量反应性研究中的可扩展过渡态生成指明了方向。

0

相关内容

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

大模型上下文长度扩展中的检索增强技术简述

大模型上下文长度扩展中的检索增强技术简述

专知会员服务

26+阅读 · 2024年6月29日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

什么是合成生物学？最新《合成生物学深度报告》深度报告，51页ppt

什么是合成生物学？最新《合成生物学深度报告》深度报告，51页ppt

专知会员服务

41+阅读 · 2023年2月7日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

专知会员服务

20+阅读 · 2022年6月25日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

专知

13+阅读 · 2018年7月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

基于功能基元的晶态超分子材料的构筑与性能研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于生物大分子可编程多层级自组装特性, 构建新型生物催化纳米组装体

国家自然科学基金

0+阅读 · 2015年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

结构可控的高有序有机半导体结晶薄膜的溶液法生长及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

一种高通量大尺度生物样品电镜三维重构方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

催化过程多尺度动态模拟方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型过渡金属硫属化合物二维半导体：可控制备、物性表征及光电子器件

国家自然科学基金

0+阅读 · 2014年12月31日

基于多孔沸石的独特性质构建功能性过渡金属催化剂实现有机合成的高效催化

国家自然科学基金

0+阅读 · 2014年12月31日

Efficient Generative Modeling with Unitary Matrix Product States Using Riemannian Optimization

Arxiv

0+阅读 · 3月12日

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

Arxiv

0+阅读 · 3月12日

HYGENE: A Diffusion-based Hypergraph Generation Method

Arxiv

0+阅读 · 3月10日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks

Arxiv

0+阅读 · 3月3日

PoolPy: Automated combinatorial pooling for high-throughput molecular profiling

Arxiv

0+阅读 · 2月25日

Scalable, quantum-accessible, and adaptive pseudorandom quantum state and pseudorandom function-like quantum state generators

Arxiv

0+阅读 · 2月17日

Sample Efficient Generative Molecular Optimization with Joint Self-Improvement

Arxiv

0+阅读 · 2月11日

Exploring the Potential of Large Language Models in Simulink-Stateflow Mutant Generation

Arxiv

0+阅读 · 2月3日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

2+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

4+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

10+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

10+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

8+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

10+阅读 · 6月17日

相关VIP内容

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

CVPR2025最新《扩散Transformers》论文，概述最新图像视频生成方法

专知会员服务

13+阅读 · 2025年4月20日

大模型上下文长度扩展中的检索增强技术简述

大模型上下文长度扩展中的检索增强技术简述

专知会员服务

26+阅读 · 2024年6月29日

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

《生成式模型: 变分自编码器与扩散模型》，75页ppt，Google DeepMind科学家Ruiqi Gao

专知会员服务

66+阅读 · 2023年6月10日

什么是合成生物学？最新《合成生物学深度报告》深度报告，51页ppt

什么是合成生物学？最新《合成生物学深度报告》深度报告，51页ppt

专知会员服务

41+阅读 · 2023年2月7日

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

扩散模型综述又一弹！西湖大学李子青等最新《生成式扩散模型》综述，18页pdf详解扩散模型基础、方法体系和应用

专知会员服务

121+阅读 · 2022年9月9日

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

Nat. Mach. Intel. | 一种用于分子相互作用和分子性质预测自动图学习方法

专知会员服务

20+阅读 · 2022年6月25日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

108+阅读 · 2020年8月30日

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

TensorFlow 2.2为keras.Model加入train_step方法，开发者可自由定义模型自动训练过程

专知会员服务

36+阅读 · 2020年3月27日

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

【DeepMind】PolyGen: 一种三维网格的自回归生成模型，PolyGen: An Autoregressive Generative Model of 3D Meshes

专知会员服务

37+阅读 · 2020年2月27日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

NLP大牛Thomas Wolf等新书《Transformer自然语言处理》，466页pdf及代码

专知

36+阅读 · 2022年2月7日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知

14+阅读 · 2020年8月30日

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

【加州理工】什么是模仿学习(Imitation Learning（模仿学习), 这62页ppt带你了解进展，附下载

专知

21+阅读 · 2019年11月14日

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

Keras作者推荐的Github项目，基于TensorFlow2的生成式模型合集

专知

15+阅读 · 2019年5月17日

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

最新23页《深度学习图像超分辨率应用综述》论文，带你全面了解深度学习超分方法（附下载）

专知

43+阅读 · 2019年2月20日

这可能是「多模态机器学习」最通俗易懂的介绍

这可能是「多模态机器学习」最通俗易懂的介绍

计算机视觉life

113+阅读 · 2018年12月20日

简述多种降维算法

简述多种降维算法

算法与数学之美

11+阅读 · 2018年9月23日

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

TensorFlow 1.9 新增 tf.keras 官方入门教程（Keras与TF的深度集成）

专知

13+阅读 · 2018年7月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

NLP中自动生产文摘（auto text summarization）

NLP中自动生产文摘（auto text summarization）

机器学习研究会

14+阅读 · 2017年10月10日

相关论文

Efficient Generative Modeling with Unitary Matrix Product States Using Riemannian Optimization

Arxiv

0+阅读 · 3月12日

EnTransformer: A Deep Generative Transformer for Multivariate Probabilistic Forecasting

Arxiv

0+阅读 · 3月12日

HYGENE: A Diffusion-based Hypergraph Generation Method

Arxiv

0+阅读 · 3月10日

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Arxiv

0+阅读 · 3月6日

SpecBridge: Bridging Mass Spectrometry and Molecular Representations via Cross-Modal Alignment

Arxiv

0+阅读 · 3月3日

QFlowNet: Fast, Diverse, and Efficient Unitary Synthesis with Generative Flow Networks

Arxiv

0+阅读 · 3月3日

PoolPy: Automated combinatorial pooling for high-throughput molecular profiling

Arxiv

0+阅读 · 2月25日

Scalable, quantum-accessible, and adaptive pseudorandom quantum state and pseudorandom function-like quantum state generators

Arxiv

0+阅读 · 2月17日

Sample Efficient Generative Molecular Optimization with Joint Self-Improvement

Arxiv

0+阅读 · 2月11日

Exploring the Potential of Large Language Models in Simulink-Stateflow Mutant Generation

Arxiv

0+阅读 · 2月3日

相关基金

基于功能基元的晶态超分子材料的构筑与性能研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于生物大分子可编程多层级自组装特性, 构建新型生物催化纳米组装体

国家自然科学基金

0+阅读 · 2015年12月31日

小分子动力学演化量子速度极限的代数理论

国家自然科学基金

0+阅读 · 2015年12月31日

结构可控的高有序有机半导体结晶薄膜的溶液法生长及应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的多尺度本质图像提取方法

国家自然科学基金

5+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

一种高通量大尺度生物样品电镜三维重构方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

催化过程多尺度动态模拟方法的研究

国家自然科学基金

0+阅读 · 2015年12月31日

新型过渡金属硫属化合物二维半导体：可控制备、物性表征及光电子器件

国家自然科学基金

0+阅读 · 2014年12月31日

基于多孔沸石的独特性质构建功能性过渡金属催化剂实现有机合成的高效催化

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员