Order Matters in Retrosynthesis: Structure-aware Generation via Reaction-Center-Guided Discrete Flow Matching - 专知论文

会员服务 ·

0

结构 · 排序 · 逆合成 · 合成 · 离散 ·

Order Matters in Retrosynthesis: Structure-aware Generation via Reaction-Center-Guided Discrete Flow Matching

翻译：顺序在逆合成中至关重要：基于反应中心引导的离散流匹配的结构感知生成

Chenguang Wang,Zihan Zhou,Lei Bai,Tianshu Yu

Template-free retrosynthesis methods treat the task as black-box sequence generation, limiting learning efficiency, while semi-template approaches rely on rigid reaction libraries that constrain generalization. We address this gap with a key insight: atom ordering in neural representations matters. Building on this insight, we propose a structure-aware template-free framework that encodes the two-stage nature of chemical reactions as a positional inductive bias. By placing reaction center atoms at the sequence head, our method transforms implicit chemical knowledge into explicit positional patterns that the model can readily capture. The proposed RetroDiT backbone, a graph transformer with rotary position embeddings, exploits this ordering to prioritize chemically critical regions. Combined with discrete flow matching, our approach decouples training from sampling and enables generation in 20--50 steps versus 500 for prior diffusion methods. Our method achieves state-of-the-art performance on both USPTO-50k (61.2% top-1) and the large-scale USPTO-Full (51.3% top-1) with predicted reaction centers. With oracle centers, performance reaches 71.1% and 63.4% respectively, surpassing foundation models trained on 10 billion reactions while using orders of magnitude less data. Ablation studies further reveal that structural priors outperform brute-force scaling: a 280K-parameter model with proper ordering matches a 65M-parameter model without it.

翻译：无模板逆合成方法将任务视为黑盒序列生成，限制了学习效率，而半模板方法依赖僵化的反应库，约束了泛化能力。我们通过一个关键洞见来弥合这一差距：神经表示中的原子排序至关重要。基于此洞见，我们提出了一种结构感知的无模板框架，将化学反应的两阶段特性编码为位置归纳偏置。通过将反应中心原子置于序列头部，我们的方法将隐式化学知识转化为模型易于捕捉的显式位置模式。所提出的RetroDiT主干网络（一种带有旋转位置嵌入的图Transformer）利用这种排序来优先处理化学关键区域。结合离散流匹配，我们的方法将训练与采样解耦，并能在20-50步内完成生成，而先前的扩散方法需要500步。在使用预测反应中心的情况下，我们的方法在USPTO-50k（61.2% top-1）和大规模USPTO-Full（51.3% top-1）上均实现了最先进的性能。在使用真实反应中心时，性能分别达到71.1%和63.4%，超越了在100亿反应上训练的基础模型，同时使用的数据量少数个数量级。消融研究进一步揭示，结构先验优于暴力缩放：一个具有适当排序的28万参数模型，其性能可与一个不具备该排序的6500万参数模型相媲美。

0

相关内容

【博士论文】知识引导的序列决策算法：图结构、专家示教、人类及跨智能体经验的融合研究

【博士论文】知识引导的序列决策算法：图结构、专家示教、人类及跨智能体经验的融合研究

专知会员服务

13+阅读 · 4月10日

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

13+阅读 · 3月30日

【博士论文】深度序列模型中的概率学习与生成机制

【博士论文】深度序列模型中的概率学习与生成机制

专知会员服务

13+阅读 · 3月3日

【博士论文】结构与解构：知识引擎生成中的双重力量

【博士论文】结构与解构：知识引擎生成中的双重力量

专知会员服务

23+阅读 · 2025年9月5日

【牛津大学博士论文】序列决策中的迁移学习

【牛津大学博士论文】序列决策中的迁移学习

专知会员服务

24+阅读 · 2024年11月10日

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

专知会员服务

21+阅读 · 2024年11月4日

综述分享 | 计算机辅助化合物逆合成预测

综述分享 | 计算机辅助化合物逆合成预测

专知会员服务

11+阅读 · 2022年5月6日

【ICML2020】通过神经引导的A*搜索学习逆合成设计

【ICML2020】通过神经引导的A*搜索学习逆合成设计

专知会员服务

19+阅读 · 2020年8月18日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

手性磷酸和过渡金属共催化的串联反应研究：高对映选择性地合成杂环化合物

国家自然科学基金

1+阅读 · 2015年12月31日

催化剂固体表界面结构的原位高分辨电子显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

顺序变形的多点-柔性模复合近净成形技术机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

输入串联型逆变器组合系统的关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

Physics-guided diffusion models for inverse design of disordered metamaterials

Arxiv

0+阅读 · 3月17日

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Arxiv

0+阅读 · 3月10日

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Arxiv

0+阅读 · 3月10日

Structure from Rank: Rank-Order Coding as a Bridge from Sequence to Structure

Arxiv

0+阅读 · 3月9日

Constraint-Aware Generative Re-ranking for Multi-Objective Optimization in Advertising Feeds

Arxiv

0+阅读 · 3月4日

Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation

Arxiv

0+阅读 · 2月16日

Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding

Arxiv

0+阅读 · 2月13日

SciFlow-Bench: Evaluating Structure-Aware Scientific Diagram Generation via Inverse Parsing

Arxiv

0+阅读 · 2月10日

Optimization and Generation in Aerodynamics Inverse Design

Arxiv

0+阅读 · 2月5日

DMFlow: Disordered Materials Generation by Flow Matching

Arxiv

0+阅读 · 2月4日

VIP会员

文章信息

相关主题

最新内容

乌克兰前线的五项创新

乌克兰前线的五项创新

专知会员服务

1+阅读 · 今天6:14

军事通信系统与设备的技术演进综述

军事通信系统与设备的技术演进综述

专知会员服务

1+阅读 · 今天5:59

《北约 AI手册：作战人员的实用考量》（2026最新64页）

《北约 AI手册：作战人员的实用考量》（2026最新64页）

专知会员服务

3+阅读 · 今天5:54

《北约标准：医疗评估手册》174页

《北约标准：医疗评估手册》174页

专知会员服务

2+阅读 · 今天5:51

《提升生成模型的安全性与保障》博士论文

《提升生成模型的安全性与保障》博士论文

专知会员服务

1+阅读 · 今天5:47

美国当前高超音速导弹发展概述

美国当前高超音速导弹发展概述

专知会员服务

4+阅读 · 4月19日

《高超音速武器：一项再度兴起的技术》120页slides

《高超音速武器：一项再度兴起的技术》120页slides

专知会员服务

9+阅读 · 4月19日

无人机蜂群建模与仿真方法

无人机蜂群建模与仿真方法

专知会员服务

10+阅读 · 4月19日

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

《重建美国空中力量：为应对同级冲突平衡空军战斗力量》美智库报告

专知会员服务

3+阅读 · 4月19日

《量化反无人机系统对抗无人机蜂群效能的创新方法》

《量化反无人机系统对抗无人机蜂群效能的创新方法》

专知会员服务

12+阅读 · 4月19日

澳大利亚发布《国防战略（2026年）》

澳大利亚发布《国防战略（2026年）》

专知会员服务

5+阅读 · 4月19日

【CMU博士论文】迈向基于基础先验的 4D 感知研究

【CMU博士论文】迈向基于基础先验的 4D 感知研究

专知会员服务

7+阅读 · 4月19日

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

大语言模型智能体中的外显化机制：记忆、技能、协议与评测基准工程综述

专知会员服务

17+阅读 · 4月19日

全球高超音速武器最新发展趋势

全球高超音速武器最新发展趋势

专知会员服务

4+阅读 · 4月19日

《利用大语言模型增强多域作战兵棋推演》（报告）

《利用大语言模型增强多域作战兵棋推演》（报告）

专知会员服务

14+阅读 · 4月18日

相关VIP内容

【博士论文】知识引导的序列决策算法：图结构、专家示教、人类及跨智能体经验的融合研究

【博士论文】知识引导的序列决策算法：图结构、专家示教、人类及跨智能体经验的融合研究

专知会员服务

13+阅读 · 4月10日

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

【博士论文】知识引导的序列决策算法：整合图结构、演示数据、人类经验与跨智能体经验

专知会员服务

13+阅读 · 3月30日

【博士论文】深度序列模型中的概率学习与生成机制

【博士论文】深度序列模型中的概率学习与生成机制

专知会员服务

13+阅读 · 3月3日

【博士论文】结构与解构：知识引擎生成中的双重力量

【博士论文】结构与解构：知识引擎生成中的双重力量

专知会员服务

23+阅读 · 2025年9月5日

【牛津大学博士论文】序列决策中的迁移学习

【牛津大学博士论文】序列决策中的迁移学习

专知会员服务

24+阅读 · 2024年11月10日

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

何恺明NeurIPS 2024论文《无条件生成的回归：一种自监督表征生成方法》

专知会员服务

21+阅读 · 2024年11月4日

综述分享 | 计算机辅助化合物逆合成预测

综述分享 | 计算机辅助化合物逆合成预测

专知会员服务

11+阅读 · 2022年5月6日

【ICML2020】通过神经引导的A*搜索学习逆合成设计

【ICML2020】通过神经引导的A*搜索学习逆合成设计

专知会员服务

19+阅读 · 2020年8月18日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

【论文推荐】一种用于逆合成预测的图到图框架，A Graph to Graphs Framework for Retrosynthesis Prediction

专知会员服务

12+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

军事通信系统与设备的技术演进综述

《北约标准：医疗评估手册》174页

乌克兰前线的五项创新

《北约 AI手册：作战人员的实用考量》（2026最新64页）

相关资讯

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

【佐治亚理工博士论文】基于策略智能体和有限反馈的序列决策，211页pdf

专知

38+阅读 · 2023年4月13日

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

机器学习与组合优化如何结合？这份AAAI2021教程讲述「机器学习组合优化」进展，附240页ppt

专知

23+阅读 · 2021年2月16日

基于深度学习的序列推荐系统：概念，算法与评估

基于深度学习的序列推荐系统：概念，算法与评估

专知

24+阅读 · 2019年6月6日

基于逆强化学习的示教学习方法综述

基于逆强化学习的示教学习方法综述

计算机研究与发展

16+阅读 · 2019年2月25日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

【学界】极端图像压缩的生成对抗网络，可生成低码率的高质量图像

GAN生成式对抗网络

10+阅读 · 2018年4月25日

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

【论文读书笔记】重新考虑用简单神经网络进行知识表示学习（附代码）

专知

14+阅读 · 2018年2月4日

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

深度强化学习首次在无监督视频摘要生成问题中的应用：实现state-of-the-art效果

专知

26+阅读 · 2018年1月21日

【干货】基于注意力机制的神经匹配模型用于短文本检索

【干货】基于注意力机制的神经匹配模型用于短文本检索

专知

11+阅读 · 2018年1月11日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

相关论文

Physics-guided diffusion models for inverse design of disordered metamaterials

Arxiv

0+阅读 · 3月17日

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Arxiv

0+阅读 · 3月10日

A Generative Sampler for distributions with possible discrete parameter based on Reversibility

Arxiv

0+阅读 · 3月10日

Structure from Rank: Rank-Order Coding as a Bridge from Sequence to Structure

Arxiv

0+阅读 · 3月9日

Constraint-Aware Generative Re-ranking for Multi-Objective Optimization in Advertising Feeds

Arxiv

0+阅读 · 3月4日

Measuring and Mitigating Post-hoc Rationalization in Reverse Chain-of-Thought Generation

Arxiv

0+阅读 · 2月16日

Protect$^*$: Steerable Retrosynthesis through Neuro-Symbolic State Encoding

Arxiv

0+阅读 · 2月13日

SciFlow-Bench: Evaluating Structure-Aware Scientific Diagram Generation via Inverse Parsing

Arxiv

0+阅读 · 2月10日

Optimization and Generation in Aerodynamics Inverse Design

Arxiv

0+阅读 · 2月5日

DMFlow: Disordered Materials Generation by Flow Matching

Arxiv

0+阅读 · 2月4日

相关基金

手性磷酸和过渡金属共催化的串联反应研究：高对映选择性地合成杂环化合物

国家自然科学基金

1+阅读 · 2015年12月31日

催化剂固体表界面结构的原位高分辨电子显微学研究

国家自然科学基金

0+阅读 · 2015年12月31日

顺序变形的多点-柔性模复合近净成形技术机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

结构化压缩感知及其在盲信号处理中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

压缩感知中正交匹配追踪算法的理论研究

国家自然科学基金

1+阅读 · 2015年12月31日

广义低秩矩阵重构算法及其应用研究

国家自然科学基金

6+阅读 · 2015年12月31日

排序与半监督学习的误差分析

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

复杂生产制造环境下的排序问题研究

国家自然科学基金

0+阅读 · 2014年12月31日

输入串联型逆变器组合系统的关键技术研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员