Designing molecules with target properties is most useful when candidate structures are accompanied by feasible synthetic routes. We introduce My Chemical Harness, a route-native evolutionary framework for goal-directed molecular design in which the search population consists of executable synthetic pathways rather than isolated molecular graphs. Each route is built from purchasable building blocks and reaction templates, executed by deterministic chemistry tools, and scored through task-specific molecular oracles. Large language models (LLMs) are used only as strategy controllers that select high-level preferences over route length, move type, reaction families, motifs, and exploration pressure, while local code performs route construction, validation, deduplication, scoring, selection, and memory updates. This separation lets the LLM guide exploration without allowing it to introduce hallucinated products or unsupported reaction steps. On a soluble epoxide hydrolase proxy task, our LLM agent improves over single pass LLM and deterministic controllers, reaching state-of-the-art performance across the sEH score, synthetic accessibility score, and AiZynthFinder success rate metrics. These results suggest that constrained LLM agents can play a significant role in molecular discovery without requiring training, fine-tuning, or dedicated generative models.


翻译:当候选结构伴随可行合成路线时,以目标性质设计分子最为有用。我们提出"我的化学 harness"(My Chemical Harness),一种面向目标分子设计的路径原生进化框架,其搜索种群由可执行的合成路径而非孤立分子图构成。每条路径由可购买的构建模块和反应模板构建,通过确定性化学工具执行,并通过任务特异性分子预测器进行评分。大型语言模型(LLMs)仅作为策略控制器使用,用于选择关于路径长度、移动类型、反应家族、结构基序及探索压力的高层次偏好,而局部代码则执行路径构建、验证、去重、评分、选择及记忆更新。这种分离使LLM能够指导探索,同时避免其引入幻觉产物或不可支持的反应步骤。在可溶性环氧水解酶代理任务上,我们的LLM智能体优于单次LLM和确定性控制器,在sEH分数、合成可及性分数及AiZynthFinder成功率指标上均达到最优性能。这些结果表明,受约束的LLM智能体无需训练、微调或专用生成模型,即可在分子发现中发挥重要作用。

0
下载
关闭预览

相关内容

BES:让语言模型通过双向进化搜索自我改进
专知会员服务
8+阅读 · 5月30日
【ETHZ博士论文】用生成式语言模型加速分子发现
专知会员服务
31+阅读 · 2023年6月4日
综述:基于进化和物理启发建模的计算蛋白设计
专知会员服务
16+阅读 · 2022年9月12日
深度学习在分子生成和分子性质预测中的应用
专知会员服务
36+阅读 · 2022年6月19日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
19+阅读 · 2020年8月18日
基于模型的强化学习综述
专知
42+阅读 · 2022年7月13日
深度自进化聚类:Deep Self-Evolution Clustering
我爱读PAMI
15+阅读 · 2019年4月13日
Nature子刊:电催化合成氨领域获得突破!
材料科学与工程
10+阅读 · 2019年3月9日
读书报告 | Deep Learning for Extreme Multi-label Text Classification
科技创新与创业
48+阅读 · 2018年1月10日
推荐算法:Match与Rank模型的交织配合
从0到1
15+阅读 · 2017年12月18日
【强化学习】强化学习+深度学习=人工智能
产业智能官
55+阅读 · 2017年8月11日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 5月14日
VIP会员
最新内容
重新思考无人机时代的生存能力
专知会员服务
2+阅读 · 今天7:44
装甲突击旅:现代战争思考、战斗与组织
专知会员服务
2+阅读 · 今天7:28
在人工智能加速决策环境中拓展OODA循环
专知会员服务
3+阅读 · 今天7:18
军事欺骗:供作战战术指挥官使用的工具
专知会员服务
3+阅读 · 今天7:03
综述 | 世界动作模型:少做梦,多行动
专知会员服务
5+阅读 · 6月23日
美以伊冲突:无人机与人工智能的运用
专知会员服务
10+阅读 · 6月23日
《特种部队在透明战场中的生存力》最新报告
专知会员服务
5+阅读 · 6月23日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员