Drug toxicity remains a major challenge in pharmaceutical development. Recent machine learning models have improved in silico toxicity prediction, but their reliance on annotated data and lack of interpretability limit their applicability. This limits their ability to capture organ-specific toxicities driven by complex biological mechanisms. Large language models (LLMs) offer a promising alternative through step-by-step reasoning and integration of textual data, yet prior approaches lack biological context and transparent rationale. To address this issue, we propose CoTox, a novel framework that integrates LLM with chain-of-thought (CoT) reasoning for multi-toxicity prediction. CoTox combines chemical structure data, biological pathways, and gene ontology (GO) terms to generate interpretable toxicity predictions through step-by-step reasoning. Using GPT-4o, we show that CoTox outperforms both traditional machine learning and deep learning model. We further examine its performance across various LLMs to identify where CoTox is most effective. Additionally, we find that representing chemical structures with IUPAC names, which are easier for LLMs to understand than SMILES, enhances the model's reasoning ability and improves predictive performance. To demonstrate its practical utility in drug development, we simulate the treatment of relevant cell types with drug and incorporated the resulting biological context into the CoTox framework. This approach allow CoTox to generate toxicity predictions aligned with physiological responses, as shown in case study. This result highlights the potential of LLM-based frameworks to improve interpretability and support early-stage drug safety assessment. The code and prompt used in this work are available at https://github.com/dmis-lab/CoTox.


翻译:药物毒性仍然是药物开发中的主要挑战。最近的机器学习模型在计算机毒性预测方面有所改进,但其对标注数据的依赖和缺乏可解释性限制了其适用性。这限制了它们捕捉由复杂生物机制驱动的器官特异性毒性的能力。大型语言模型(LLM)通过逐步推理和文本数据整合提供了一种有前景的替代方案,但先前的方法缺乏生物背景和透明的推理依据。为了解决这个问题,我们提出了CoTox,这是一个将LLM与思维链推理相结合用于多毒性预测的新框架。CoTox结合化学结构数据、生物通路和基因本体术语,通过逐步推理生成可解释的毒性预测。使用GPT-4o,我们证明CoTox在性能上优于传统的机器学习和深度学习模型。我们进一步检查了其在各种LLM上的表现,以确定CoTox在哪些情况下最有效。此外,我们发现使用IUPAC名称表示化学结构(相比SMILES更易于LLM理解)可以增强模型的推理能力并提高预测性能。为了展示其在药物开发中的实际效用,我们模拟了用药物治疗相关细胞类型的过程,并将由此产生的生物背景整合到CoTox框架中。这种方法使CoTox能够生成与生理反应一致的毒性预测,如案例研究所示。这一结果突显了基于LLM的框架在提高可解释性和支持早期药物安全性评估方面的潜力。本工作中使用的代码和提示可在https://github.com/dmis-lab/CoTox获取。

0
下载
关闭预览

相关内容

具有动能的生命体。
【KDD2024】HiGPT:异构图语言模型
专知会员服务
19+阅读 · 2024年7月9日
【ICML2024】上下文感知标记化的高效世界模型
专知会员服务
29+阅读 · 2024年7月2日
【WWW2024】博弈论式反事实解释图神经网络
专知会员服务
32+阅读 · 2024年2月17日
科学语言建模:大型语言模型在分子科学中的量化综述
专知会员服务
31+阅读 · 2024年2月8日
【KDD2023】发现动态因果空间进行DAG结构学习
专知会员服务
33+阅读 · 2023年6月9日
【AAAI 2022】 GeomGCL:用于分子性质预测的几何图对比学习
专知会员服务
24+阅读 · 2022年2月27日
专知会员服务
34+阅读 · 2021年8月16日
AAAI 2022 | ProtGNN:自解释图神经网络
专知
10+阅读 · 2022年2月28日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
LibRec 每周算法:LDA主题模型
LibRec智能推荐
29+阅读 · 2017年12月4日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Arxiv
18+阅读 · 2024年12月27日
Arxiv
175+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
499+阅读 · 2023年3月31日
Arxiv
83+阅读 · 2023年3月26日
Arxiv
27+阅读 · 2023年3月17日
Arxiv
37+阅读 · 2021年9月28日
VIP会员
相关VIP内容
相关论文
相关基金
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员