Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification? - 专知论文

会员服务 ·

0

分子 · 结构 · 多模 · 模态 · 多模态 ·

Breaking Bad Molecules: Are MLLMs Ready for Structure-Level Molecular Detoxification?

翻译：打破有害分子：多模态大语言模型是否已准备好进行结构层面的分子脱毒？

Fei Lin,Ziyang Gong,Cong Wang,Tengchao Zhang,Yonglin Tian,Yining Jiang,Ji Dai,Chao Guo,Xiaotong Yu,Xue Yang,Gen Luo,Fei-Yue Wang

Toxicity remains a leading cause of early-stage drug development failure. Despite advances in molecular design and property prediction, the task of molecular toxicity repair, generating structurally valid molecular alternatives with reduced toxicity, has not yet been systematically defined or benchmarked. To fill this gap, we introduce ToxiMol, the first benchmark task for general-purpose Multimodal Large Language Models (MLLMs) focused on molecular toxicity repair. We construct a standardized dataset covering 11 primary tasks and 660 representative toxic molecules spanning diverse mechanisms and granularities. We design a prompt annotation pipeline with mechanism-aware and task-adaptive capabilities, informed by expert toxicological knowledge. In parallel, we propose an automated evaluation framework, ToxiEval, which integrates toxicity endpoint prediction, synthetic accessibility, drug-likeness, and structural similarity into a high-throughput evaluation chain for repair success. We systematically assess 43 mainstream general-purpose MLLMs and conduct multiple ablation studies to analyze key issues, including evaluation metrics, candidate diversity, and failure attribution. Experimental results show that although current MLLMs still face significant challenges on this task, they begin to demonstrate promising capabilities in toxicity understanding, semantic constraint adherence, and structure-aware editing.

翻译：毒性仍是药物早期研发失败的主要原因。尽管分子设计与性质预测领域已取得进展，分子毒性修复任务——即生成结构有效且毒性降低的分子替代物——尚未被系统性地定义或建立基准。为填补这一空白，我们提出ToxiMol，这是首个专注于分子毒性修复的通用多模态大语言模型（MLLMs）基准任务。我们构建了一个标准化数据集，涵盖11项主要任务和660个代表性有毒分子，涉及多种作用机制与粒度层次。基于毒理学专家知识，我们设计了具备机制感知与任务自适应能力的提示标注流程。同时，我们提出了自动化评估框架ToxiEval，该框架将毒性终点预测、合成可行性、类药性及结构相似性整合为高通量的修复成功率评估链。我们系统评估了43种主流通用MLLMs，并通过多项消融实验分析了关键问题，包括评估指标、候选分子多样性及失败归因。实验结果表明，尽管当前MLLMs在此任务上仍面临显著挑战，但已初步展现出在毒性理解、语义约束遵循及结构感知编辑方面的潜力。

0

相关内容

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

科学语言建模：大型语言模型在分子科学中的量化综述

科学语言建模：大型语言模型在分子科学中的量化综述

专知会员服务

31+阅读 · 2024年2月8日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

深度学习在分子生成和分子性质预测中的应用

深度学习在分子生成和分子性质预测中的应用

专知会员服务

36+阅读 · 2022年6月19日

【AI+制药】MIT（ICLR 2022）：开发新药的更智能方法——面向自下而上合成规划和可合成分子设计的摊销树生成

【AI+制药】MIT（ICLR 2022）：开发新药的更智能方法——面向自下而上合成规划和可合成分子设计的摊销树生成

专知会员服务

16+阅读 · 2022年5月6日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

专知会员服务

28+阅读 · 2020年2月20日

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

基于功能化介孔二氧化硅泡沫装载蛋白类大分子药物口服纳米给药系统的构建及评价

国家自然科学基金

0+阅读 · 2015年12月31日

基于磁性金属有机骨架材料的低丰度蛋白/肽段高效选择分离分析新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多功能超病毒递送系统的构建及其作用机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

多通道非线性排泄模式的药物动力学的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

一种新型植物毒蛋白--蒜头果蛋白的基因克隆与结构初步分析

国家自然科学基金

1+阅读 · 2015年12月31日

离子液体参与的新型浊点体系萃取分离天然活性物质的研究

国家自然科学基金

0+阅读 · 2015年12月31日

交联质谱法寻找新型毒素的作用靶点

国家自然科学基金

1+阅读 · 2015年12月31日

基于多孔沸石的独特性质构建功能性过渡金属催化剂实现有机合成的高效催化

国家自然科学基金

0+阅读 · 2014年12月31日

基于肽类分子的多组分共组装：理性设计、多级调控与生物应用

国家自然科学基金

2+阅读 · 2014年12月31日

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Arxiv

0+阅读 · 2月19日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification

Arxiv

0+阅读 · 2月13日

Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention

Arxiv

0+阅读 · 2月6日

Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression

Arxiv

0+阅读 · 2月5日

A Large-Scale Dataset for Molecular Structure-Language Description via a Rule-Regularized Method

Arxiv

0+阅读 · 2月2日

Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis

Arxiv

0+阅读 · 1月30日

Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis

Arxiv

0+阅读 · 1月25日

DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling

Arxiv

0+阅读 · 1月21日

Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench

Arxiv

0+阅读 · 1月15日

VIP会员

文章信息

相关主题

最新内容

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

专知会员服务

6+阅读 · 5月29日

AutoScientists：自组织智能体团队驱动长期科学实验

AutoScientists：自组织智能体团队驱动长期科学实验

专知会员服务

3+阅读 · 5月29日

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

专知会员服务

4+阅读 · 5月29日

战略前沿人工智能的再思考（中文）

战略前沿人工智能的再思考（中文）

专知会员服务

4+阅读 · 5月29日

《量化地基防空系统间接效应的博弈论方法》

《量化地基防空系统间接效应的博弈论方法》

专知会员服务

4+阅读 · 5月29日

传感器网络：美国如何探测来自伊朗的导弹与无人机

传感器网络：美国如何探测来自伊朗的导弹与无人机

专知会员服务

4+阅读 · 5月29日

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

《无人机战争中的经济不对称：伊朗“沙赫德-136”对抗以色列“铁穹”防御系统的案例研究》

专知会员服务

5+阅读 · 5月29日

“史诗怒火行动”中美军损失的作战飞机

“史诗怒火行动”中美军损失的作战飞机

专知会员服务

4+阅读 · 5月29日

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

ICML 2026 | 理解上下文持续学习中的泛化与遗忘

专知会员服务

5+阅读 · 5月28日

Agent Harness综述：大模型智能体执行器工程全景

Agent Harness综述：大模型智能体执行器工程全景

专知会员服务

14+阅读 · 5月28日

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

审视现代战争中的 AI 赋能杀伤链系统及印度防务的战略要务（中文版）

专知会员服务

14+阅读 · 5月28日

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

分布式作战效能：乌克兰如何在战术层面重新定义火力打击、电子战与防空（中文版）

专知会员服务

9+阅读 · 5月28日

马赛克防御与分布式指挥：伊朗的回击（中文版）

马赛克防御与分布式指挥：伊朗的回击（中文版）

专知会员服务

10+阅读 · 5月28日

《基于理论的威慑效能评估》

《基于理论的威慑效能评估》

专知会员服务

8+阅读 · 5月28日

《移动旅级战斗队转型中的支援单元指挥控制挑战》

《移动旅级战斗队转型中的支援单元指挥控制挑战》

专知会员服务

15+阅读 · 5月27日

相关VIP内容

【博士论文】《通过提前退出算法加速大语言模型推理》

【博士论文】《通过提前退出算法加速大语言模型推理》

专知会员服务

13+阅读 · 2025年9月9日

当持续学习遇上多模态大型语言模型：综述

当持续学习遇上多模态大型语言模型：综述

专知会员服务

32+阅读 · 2025年3月5日

科学语言建模：大型语言模型在分子科学中的量化综述

科学语言建模：大型语言模型在分子科学中的量化综述

专知会员服务

31+阅读 · 2024年2月8日

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

中科大腾讯最新《多模态大型语言模型》综述，详述多模态指令微调、上下文学习、思维链和辅助视觉推理技术

专知会员服务

105+阅读 · 2023年6月27日

ATMOL：利用对比学习预训练模型预测分子性质

ATMOL：利用对比学习预训练模型预测分子性质

专知会员服务

12+阅读 · 2022年8月14日

深度学习在分子生成和分子性质预测中的应用

深度学习在分子生成和分子性质预测中的应用

专知会员服务

36+阅读 · 2022年6月19日

【AI+制药】MIT（ICLR 2022）：开发新药的更智能方法——面向自下而上合成规划和可合成分子设计的摊销树生成

【AI+制药】MIT（ICLR 2022）：开发新药的更智能方法——面向自下而上合成规划和可合成分子设计的摊销树生成

专知会员服务

16+阅读 · 2022年5月6日

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

【Nature. Mach. Intell. 】基于条件transformer、知识蒸馏和强化学习的多约束分子生成

专知会员服务

30+阅读 · 2022年3月27日

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

【ICML2020】北大本科生提出基于图到图翻译的分子逆合成预测框架

专知会员服务

15+阅读 · 2020年7月15日

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

【MIT】生成模型提出的分子的可合成性，48页pdf,The Synthesizability of Molecules Proposed by Generative Models

专知会员服务

28+阅读 · 2020年2月20日

热门VIP内容

开通专知VIP会员享更多权益服务

AutoScientists：自组织智能体团队驱动长期科学实验

战略前沿人工智能的再思考（中文）

生成式AI基础小册子绪论解读：一条数学地基路线，178页pdf

《阿利·伯克级驱逐舰的战损修理：桌面推演结果》报告

相关资讯

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

ChatGPT大模型如何做科学研究? CMU提出《大模型智能体系统》，高推理展现出大型语言模型的新兴自主科学研究能力

专知

17+阅读 · 2023年4月12日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

25+阅读 · 2023年4月4日

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

NLP领域最近比较火的Prompt，能否借鉴到多模态领域？一文跟进最新进展

PaperWeekly

17+阅读 · 2022年3月8日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

语义鸿沟、异构鸿沟、数据缺失，多模态技术如何跨过这些坎？

AI前线

15+阅读 · 2019年3月21日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

NLP通用模型诞生？一个模型搞定十大自然语言常见任务

人工智能头条

10+阅读 · 2018年6月29日

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

【论文笔记】对话模型新方法，条件DialogWAE生成多模态回答

专知

15+阅读 · 2018年6月11日

相关论文

MolHIT: Advancing Molecular-Graph Generation with Hierarchical Discrete Diffusion Models

Arxiv

0+阅读 · 2月19日

DenseMLLM: Standard Multimodal LLMs are Intrinsic Dense Predictors

Arxiv

0+阅读 · 2月15日

SGM: Safety Glasses for Multimodal Large Language Models via Neuron-Level Detoxification

Arxiv

0+阅读 · 2月13日

Do Prompts Guarantee Safety? Mitigating Toxicity from LLM Generations through Subspace Intervention

Arxiv

0+阅读 · 2月6日

Breaking the MoE LLM Trilemma: Dynamic Expert Clustering with Structured Compression

Arxiv

0+阅读 · 2月5日

A Large-Scale Dataset for Molecular Structure-Language Description via a Rule-Regularized Method

Arxiv

0+阅读 · 2月2日

Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis

Arxiv

0+阅读 · 1月30日

Agentic reinforcement learning empowers next-generation chemical language models for molecular design and synthesis

Arxiv

0+阅读 · 1月25日

DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling

Arxiv

0+阅读 · 1月21日

Unveiling and Bridging the Functional Perception Gap in MLLMs: Atomic Visual Alignment and Hierarchical Evaluation via PET-Bench

Arxiv

0+阅读 · 1月15日

相关基金

基于功能化介孔二氧化硅泡沫装载蛋白类大分子药物口服纳米给药系统的构建及评价

国家自然科学基金

0+阅读 · 2015年12月31日

基于磁性金属有机骨架材料的低丰度蛋白/肽段高效选择分离分析新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

多功能超病毒递送系统的构建及其作用机制的研究

国家自然科学基金

0+阅读 · 2015年12月31日

多级可控组装模拟生物体系的功能

国家自然科学基金

0+阅读 · 2015年12月31日

多通道非线性排泄模式的药物动力学的数学问题

国家自然科学基金

0+阅读 · 2015年12月31日

一种新型植物毒蛋白--蒜头果蛋白的基因克隆与结构初步分析

国家自然科学基金

1+阅读 · 2015年12月31日

离子液体参与的新型浊点体系萃取分离天然活性物质的研究

国家自然科学基金

0+阅读 · 2015年12月31日

交联质谱法寻找新型毒素的作用靶点

国家自然科学基金

1+阅读 · 2015年12月31日

基于多孔沸石的独特性质构建功能性过渡金属催化剂实现有机合成的高效催化

国家自然科学基金

0+阅读 · 2014年12月31日

基于肽类分子的多组分共组装：理性设计、多级调控与生物应用

国家自然科学基金

2+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员