ChemBART：一种辅助有机化学分析的预训练BART模型 (ChemBART: A Pre-trained BART Model Assisting Organic Chemistry Analysis) - 专知论文

会员服务 ·

0

预训练 · 合成 · 分子 · BART · 分析 ·

ChemBART: A Pre-trained BART Model Assisting Organic Chemistry Analysis

翻译：ChemBART：一种辅助有机化学分析的预训练BART模型

Kenan Li,Yijian Zhang,Jin Wang,Haipeng Gan,Zeying Sun,Xiaoguang Lei,Hao Dong

Recent advances in large language models (LLMs) have demonstrated transformative potential across diverse fields. While LLMs have been applied to molecular simplified molecular input line entry system (SMILES) in computer-aided synthesis planning (CASP), existing methodologies typically address single tasks, such as precursor prediction. We introduce ChemBART, a SMILES-based LLM pre-trained on chemical reactions, which enables a unified model for multiple downstream chemical tasks--achieving the paradigm of "one model, one pre-training, multiple tasks." By leveraging outputs from a mask-filling pre-training task on reaction expressions, ChemBART effectively solves a variety of chemical problems, including precursor/reagent generation, temperature-yield regression, molecular property classification, and optimizing the policy and value functions within a reinforcement learning framework, integrated with Monte Carlo tree search for multi-step synthesis route design. Unlike single-molecule pre-trained LLMs constrained to specific applications, ChemBART addresses broader chemical challenges and integrates them for comprehensive synthesis planning. Crucially, ChemBART-designed multi-step synthesis routes and reaction conditions directly inspired wet-lab validation, which confirmed shorter pathways with ~30% yield improvement over literature benchmarks. Our work validates the power of reaction-focused pre-training and showcases the broad utility of ChemBART in advancing the complete synthesis planning cycle.

翻译：近年来，大型语言模型（LLMs）的进展展现出跨领域的变革潜力。虽然LLMs已应用于计算机辅助合成规划（CASP）中的分子简化分子线性输入规范（SMILES），但现有方法通常仅针对单一任务（如前体预测）。本文提出ChemBART，这是一种基于SMILES、在化学反应数据上预训练的大型语言模型，能够为多个下游化学任务提供统一模型——实现“一个模型、一次预训练、多类任务”的范式。通过利用掩码填充预训练任务在反应表达式上的输出，ChemBART有效解决了多种化学问题，包括前体/试剂生成、温度-产率回归、分子性质分类，以及在强化学习框架内优化策略函数与价值函数，并结合蒙特卡洛树搜索进行多步合成路线设计。与局限于特定应用的单分子预训练LLMs不同，ChemBART处理更广泛的化学挑战并将其整合为综合合成规划。关键的是，ChemBART设计的多步合成路线与反应条件直接启发了湿实验验证，实验证实其路径更短，产率较文献基准提升约30%。本研究验证了以反应为中心的预训练方法的效能，并展示了ChemBART在推进完整合成规划周期中的广泛实用性。

0

相关内容

预训练

在搭建网络模型时，需要随机初始化参数，然后开始训练网络，不断调整直到网络的损失越来越小。在训练的过程中，一开始初始化的参数会不断变化。当参数训练到比较好的时候就可以将训练模型的参数保存下来，以便训练好的模型可以在下次执行类似任务时获得较好的结果。

基于文本引导的分子发现中大型语言模型综述：从分子生成到优化

基于文本引导的分子发现中大型语言模型综述：从分子生成到优化

专知会员服务

7+阅读 · 2025年5月24日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

CancerGPT利用大型语言模型进行少样本药物组合协同作用预测

CancerGPT利用大型语言模型进行少样本药物组合协同作用预测

专知会员服务

21+阅读 · 2023年5月13日

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

专知会员服务

78+阅读 · 2023年5月8日

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

专知会员服务

142+阅读 · 2022年10月19日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

催化精馏制备生物柴油过程中反应与分离协同机制及其调控

国家自然科学基金

0+阅读 · 2015年12月31日

在线电场驱动聚焦预富集-超高效液相色谱联用在全氟化合物分析中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

金属有机骨架/无机膜复合材料的可控制备及气体分离性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

核级阀门特性分析模型精度控制策略及安全性能预测

国家自然科学基金

0+阅读 · 2015年12月31日

基于多孔沸石的独特性质构建功能性过渡金属催化剂实现有机合成的高效催化

国家自然科学基金

0+阅读 · 2014年12月31日

功能金属有机框架的吸附位优化及其CH4-N2分离机理

国家自然科学基金

0+阅读 · 2014年12月31日

互穿网络型离子液体修饰的高孔容金属-有机框架材料的构筑及捕集CO2机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

离子液体参与构筑的新型液相体系萃取贵金属的机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective

Arxiv

0+阅读 · 2月3日

ChemPro: A Progressive Chemistry Benchmark for Large Language Models

Arxiv

0+阅读 · 2月3日

SAC-Opt: Semantic Anchors for Iterative Correction in Optimization Modeling

Arxiv

0+阅读 · 1月27日

EmbedAgent: Benchmarking Large Language Models in Embedded System Development

Arxiv

0+阅读 · 1月23日

Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Arxiv

0+阅读 · 1月22日

EmbedAgent: Benchmarking Large Language Models in Embedded System Development

Arxiv

0+阅读 · 1月22日

MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs

Arxiv

0+阅读 · 1月21日

Where to Begin: Efficient Pretraining via Subnetwork Selection and Distillation

Arxiv

0+阅读 · 1月14日

KALE-LM-Chem: Vision and Practice Toward an AI Brain for Chemistry

Arxiv

0+阅读 · 1月9日

SimuAgent: An LLM-Based Simulink Modeling Assistant Enhanced with Reinforcement Learning

Arxiv

0+阅读 · 1月8日

VIP会员

文章信息

相关主题

相关VIP内容

基于文本引导的分子发现中大型语言模型综述：从分子生成到优化

基于文本引导的分子发现中大型语言模型综述：从分子生成到优化

专知会员服务

7+阅读 · 2025年5月24日

什么是后训练？大语言模型训练后优化方法综述，87页pdf

什么是后训练？大语言模型训练后优化方法综述，87页pdf

专知会员服务

54+阅读 · 2025年3月11日

大型语言模型在预测和异常检测中的应用综述

大型语言模型在预测和异常检测中的应用综述

专知会员服务

70+阅读 · 2024年2月19日

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

大模型如何构建和部署？微软等最新《大型语言模型》综述，详述GPT, LLaMA, PaLM技术细节，Tomas等大牛撰写

专知会员服务

91+阅读 · 2024年2月12日

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

大模型如何用于科学发现？浙大等最新《科学大型语言模型：生物学与化学领域》综述

专知会员服务

50+阅读 · 2024年1月29日

CancerGPT利用大型语言模型进行少样本药物组合协同作用预测

CancerGPT利用大型语言模型进行少样本药物组合协同作用预测

专知会员服务

21+阅读 · 2023年5月13日

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

大模型如何端边部署？华盛顿Google提出《逐步蒸馏》法，以更少的训练数据和更小的模型规模超越更大的语言模型

专知会员服务

78+阅读 · 2023年5月8日

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

不可错过！普林斯顿陈丹琦最新《大语言模型理解》2022课程！全面讲述BERT、GPT、T5等大模型，附Slides

专知会员服务

142+阅读 · 2022年10月19日

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

【西湖大学】图预训练方法体系综述，A Survey of Pre-training on Graphs: Taxonomy, Methods and Applications

专知会员服务

43+阅读 · 2022年3月25日

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

【清华大学】Delta调优:预训练语言模型参数有效方法的综合研究，Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models

专知会员服务

26+阅读 · 2022年3月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《无人机与战争：被忽视的环境影响及无人机保护潜力》

俄罗斯规划未来无人机驱动军队

《整合杀伤链：一个用于边缘目标验证与战术推理的零样本框架》最新资料

《人工智能、武器与影响力：前沿模型在模拟核危机中展现复杂推理》2026最新46页报告

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

绝对干货！NLP预训练模型：从transformer到albert

绝对干货！NLP预训练模型：从transformer到albert

新智元

13+阅读 · 2019年11月10日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

预训练语言模型关系图+必读论文列表，清华荣誉出品

预训练语言模型关系图+必读论文列表，清华荣誉出品

机器之心

18+阅读 · 2019年10月11日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

相关论文

Towards Distillation-Resistant Large Language Models: An Information-Theoretic Perspective

Arxiv

0+阅读 · 2月3日

ChemPro: A Progressive Chemistry Benchmark for Large Language Models

Arxiv

0+阅读 · 2月3日

SAC-Opt: Semantic Anchors for Iterative Correction in Optimization Modeling

Arxiv

0+阅读 · 1月27日

EmbedAgent: Benchmarking Large Language Models in Embedded System Development

Arxiv

0+阅读 · 1月23日

Grounding Large Language Models in Reaction Knowledge Graphs for Synthesis Retrieval

Arxiv

0+阅读 · 1月22日

EmbedAgent: Benchmarking Large Language Models in Embedded System Development

Arxiv

0+阅读 · 1月22日

MolecularIQ: Characterizing Chemical Reasoning Capabilities Through Symbolic Verification on Molecular Graphs

Arxiv

0+阅读 · 1月21日

Where to Begin: Efficient Pretraining via Subnetwork Selection and Distillation

Arxiv

0+阅读 · 1月14日

KALE-LM-Chem: Vision and Practice Toward an AI Brain for Chemistry

Arxiv

0+阅读 · 1月9日

SimuAgent: An LLM-Based Simulink Modeling Assistant Enhanced with Reinforcement Learning

Arxiv

0+阅读 · 1月8日

相关基金

催化精馏制备生物柴油过程中反应与分离协同机制及其调控

国家自然科学基金

0+阅读 · 2015年12月31日

在线电场驱动聚焦预富集-超高效液相色谱联用在全氟化合物分析中的应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

金属有机骨架/无机膜复合材料的可控制备及气体分离性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

核级阀门特性分析模型精度控制策略及安全性能预测

国家自然科学基金

0+阅读 · 2015年12月31日

基于多孔沸石的独特性质构建功能性过渡金属催化剂实现有机合成的高效催化

国家自然科学基金

0+阅读 · 2014年12月31日

功能金属有机框架的吸附位优化及其CH4-N2分离机理

国家自然科学基金

0+阅读 · 2014年12月31日

互穿网络型离子液体修饰的高孔容金属-有机框架材料的构筑及捕集CO2机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

离子液体参与构筑的新型液相体系萃取贵金属的机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

概率图模型学习及其在数据分析中的应用研究

国家自然科学基金

16+阅读 · 2013年12月31日

基于贝叶斯推理的模糊逻辑强化学习模型研究

国家自然科学基金

18+阅读 · 2012年12月31日

微信扫码咨询专知VIP会员