Large Language Models (LLMs) have the potential to accelerate small molecule drug design due to their ability to reason about information from diverse sources and formats. However, their practical utility remains unclear due to the lack of benchmarks that reflect real-world scenarios. In this work, we introduce a suite of chemically-grounded tasks spanning molecular property prediction, molecular representation transformations, and molecular design. Importantly, we formulate these tasks as reinforcement learning (RL) environments, enabling a unified approach for evaluation and post-training. Across three model families, we find that frontier models are increasingly proficient at chemical tasks, but that there is significant room for improvement, especially in experimental settings with low data. Critically, we show that RL-based post-training can substantially improve performance. A smaller model post-trained on our environments becomes competitive with state-of-the-art frontier models, despite a significantly weaker base model. This suggests a practical route toward employing LLMs in drug discovery; by combining carefully-designed evaluation tasks with targeted post-training, we can both elucidate and close critical capability gaps.


翻译:大语言模型因其能够推理来自不同来源和格式的信息,有望加速小分子药物设计。然而,由于缺乏反映真实场景的基准测试,其实际效用仍不明确。在本工作中,我们引入了一套基于化学任务的套件,涵盖分子性质预测、分子表征转换及分子设计。重要的是,我们将这些任务构建为强化学习环境,从而实现了评估与后训练的统一方法。在三个模型系列中,我们发现前沿模型在化学任务上的熟练程度持续提升,但仍存在显著改进空间,尤其是在低数据实验场景中。关键的是,我们证明基于强化学习的后训练可大幅提升性能。一个在我们环境中经过后训练的较小模型,尽管基础模型明显较弱,却能媲美最先进的前沿模型。这为在药物发现中应用大语言模型提供了一条实用路径:通过结合精心设计的评估任务与定向后训练,我们既能阐明关键能力差距,也能填补这些差距。

0
下载
关闭预览

相关内容

评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
87+阅读 · 2022年10月29日
「知识增强预训练语言模型」最新研究综述
专知
18+阅读 · 2022年11月18日
自然语言处理中的语言模型预训练方法
PaperWeekly
14+阅读 · 2018年10月21日
NLP通用模型诞生?一个模型搞定十大自然语言常见任务
人工智能头条
10+阅读 · 2018年6月29日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
评估大语言模型在科学发现中的作用
专知会员服务
19+阅读 · 2025年12月19日
大型语言模型的规模效应局限
专知会员服务
14+阅读 · 2025年11月18日
医学领域大型语言模型的新进展
专知会员服务
25+阅读 · 2025年10月5日
大语言模型与小语言模型协同机制综述
专知会员服务
40+阅读 · 2025年5月15日
大语言模型在序列推荐中的应用
专知会员服务
19+阅读 · 2024年11月12日
小型语言模型综述
专知会员服务
56+阅读 · 2024年10月29日
大语言模型评估技术研究进展
专知会员服务
49+阅读 · 2024年7月9日
大语言模型算法演进综述
专知会员服务
81+阅读 · 2024年5月30日
LLM in Medical Domain: 大语言模型在医学领域的应用
专知会员服务
103+阅读 · 2023年6月17日
《大语言模型进展》69页ppt,谷歌研究科学家Jason Wei
专知会员服务
87+阅读 · 2022年10月29日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员