MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry - 专知论文

会员服务 ·

0

分子 · 结构 · 分子性质 · 分子性质预测 · 上下文 ·

MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

翻译：MolE-RAG：面向化学的分子结构增强检索增强生成框架

Joey Chan,Wonbin Kweon,Ashley Shin,Niharika Bhattacharjee,Pengcheng Jiang,Yue Guo,Jiawei Han

Large language models (LLMs) have shown promise for molecular property prediction, but their ability to reason over chemical structures remains limited, as molecular representations such as SMILES differ substantially from the natural language on which LLMs are primarily trained. To bridge this semantic and chemical knowledge gap, we propose MolE-RAG, a training-free, molecule-centric retrieval-augmented generation framework for LLM-based molecular property prediction. MolE-RAG augments each prediction with three complementary sources of inference-time context: retrieved chemistry literature, molecule-specific information including compound synonyms, identifiers, functional group annotations, and physicochemical descriptors, and structurally similar molecules retrieved from the training set. We evaluate MolE-RAG across nine molecular property prediction tasks using proprietary, chemistry-specialized, and open-source LLMs. Across general-purpose LLMs, MolE-RAG improves ROC-AUC by up to 28 percentage points on classification tasks and reduces regression RMSE by up to 67% relative to a SMILES-only baseline. We further find that the utility of each context source varies across models and tasks, with different models benefiting most from textual retrieval, molecular context, or structural retrieval. These results suggest that molecule-centric retrieval can improve LLM-based molecular property prediction without model fine-tuning while providing a flexible framework for integrating heterogeneous chemical knowledge at inference time.

翻译：大型语言模型（LLMs）在分子性质预测方面展现出潜力，但其对化学结构的推理能力仍存在局限性——这是因为SMILES等分子表示方式与LLMs主要训练所用的自然语言存在显著差异。为弥合这一语义与化学知识鸿沟，我们提出MolE-RAG——一种无需训练的、以分子为中心的检索增强生成框架，用于基于LLM的分子性质预测。MolE-RAG通过三类互补的推理时上下文增强每次预测：检索到的化学文献、分子特定信息（包括化合物同义词、标识符、官能团注释及物理化学描述符），以及从训练集中检索到的结构相似分子。我们使用商业、化学专用及开源LLMs，在九项分子性质预测任务中评估MolE-RAG。相较于仅使用SMILES的基线模型，在通用LLMs上，MolE-RAG使分类任务的ROC-AUC最高提升28个百分点，回归任务的RMSE最高降低67%。进一步研究发现，各类上下文来源的效用因模型和任务而异：不同模型分别从文本检索、分子上下文或结构检索中获益最多。结果表明，以分子为中心的检索可在无需模型微调的情况下提升基于LLM的分子性质预测能力，同时为推理时整合异质化学知识提供灵活框架。

0

相关内容

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

34+阅读 · 2025年9月17日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

39+阅读 · 2025年1月28日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

58+阅读 · 2024年9月24日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

89+阅读 · 2024年5月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

基于磁性金属有机骨架材料的低丰度蛋白/肽段高效选择分离分析新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于金属卟啉结构基元的微纳尺度MOFs的构建及其多相催化氧化性质的研究

国家自然科学基金

0+阅读 · 2015年12月31日

由金属有机框架和聚合物电解质制备复合质子传导膜及其结构和性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

锂离子电池用高容量富锂层状氧化物双晶畴结构演化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

金属有机框架（MOFs）材料的构筑、纳米化及光学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维MOFs-贵金属复合物在表面增强拉曼散射中的传感效能研究

国家自然科学基金

0+阅读 · 2015年12月31日

重油组成矩阵的分子水平构建及基于结构导向集总的催化裂化反应动力学模型

国家自然科学基金

0+阅读 · 2014年12月31日

功能金属有机框架的吸附位优化及其CH4-N2分离机理

国家自然科学基金

0+阅读 · 2014年12月31日

互穿网络型离子液体修饰的高孔容金属-有机框架材料的构筑及捕集CO2机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

高分子复合材料介观结构与宏观力学性质的模拟与关联

国家自然科学基金

0+阅读 · 2014年12月31日

MemBoost: A Memory-Boosted Framework for Cost-Aware LLM Inference

Arxiv

0+阅读 · 6月15日

MolSight: Molecular Property Prediction with Images

Arxiv

0+阅读 · 6月14日

MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 6月14日

SupraBench: A Benchmark for Supramolecular Chemistry

Arxiv

0+阅读 · 6月11日

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Arxiv

0+阅读 · 6月5日

MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月30日

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

Arxiv

0+阅读 · 5月29日

RAGe: A Retrieval-Augmented Generation Evaluation Framework

Arxiv

0+阅读 · 5月23日

Speak-to-Structure: Evaluating LLMs in Open-domain Natural Language-Driven Molecule Generation

Arxiv

0+阅读 · 5月22日

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Arxiv

0+阅读 · 5月11日

VIP会员

文章信息

相关主题

分子性质预测

最新内容

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

专知会员服务

5+阅读 · 8月1日

隐身技术前沿综述：物理机理、工程实践与战略展望

隐身技术前沿综述：物理机理、工程实践与战略展望

专知会员服务

4+阅读 · 8月1日

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

专知会员服务

3+阅读 · 8月1日

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《以机反机：基于无人机载麦克风的空中周界入侵检测》

专知会员服务

4+阅读 · 8月1日

《无人机脆弱性利用：网络空间力量的新域》

《无人机脆弱性利用：网络空间力量的新域》

专知会员服务

2+阅读 · 8月1日

美空军如何将人工智能从战场部署至后方机关

美空军如何将人工智能从战场部署至后方机关

专知会员服务

11+阅读 · 7月31日

《美战争部指令文件：网络空间效应与使能能力测试评估》

《美战争部指令文件：网络空间效应与使能能力测试评估》

专知会员服务

7+阅读 · 7月31日

《史诗怒火行动：多域前瞻评估》49页报告

《史诗怒火行动：多域前瞻评估》49页报告

专知会员服务

7+阅读 · 7月31日

《英国防部：未来空战系统数字化战略》33页

《英国防部：未来空战系统数字化战略》33页

专知会员服务

5+阅读 · 7月31日

《面向自主飞行网络的智能体人工智能架构》

《面向自主飞行网络的智能体人工智能架构》

专知会员服务

7+阅读 · 7月31日

“史诗怒火”行动：现代多域作战的重要节点

“史诗怒火”行动：现代多域作战的重要节点

专知会员服务

8+阅读 · 7月30日

《下一代无线网络中的多无人机通信资源管理》

《下一代无线网络中的多无人机通信资源管理》

专知会员服务

8+阅读 · 7月30日

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

《高分辨率模拟下的聚合战斗建模：以“会战交锋”场景为例》

专知会员服务

9+阅读 · 7月30日

《人机协同在安全关键型操作决策中的应用》120页

《人机协同在安全关键型操作决策中的应用》120页

专知会员服务

8+阅读 · 7月30日

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

网络防御与空中力量网络防护：21世纪空中力量历史与理论的启示

专知会员服务

6+阅读 · 7月30日

相关VIP内容

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

基于强化学习的智能体化搜索全面综述：基础、角色、优化、评估与应用

专知会员服务

24+阅读 · 2025年10月22日

大语言模型中的检索与结构化增强生成综述

大语言模型中的检索与结构化增强生成综述

专知会员服务

34+阅读 · 2025年9月17日

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

39+阅读 · 2025年1月28日

智能体检索增强生成：关于智能体RAG的综述

智能体检索增强生成：关于智能体RAG的综述

专知会员服务

94+阅读 · 2025年1月21日

微软最新《检索增强生成（RAG）》综述

微软最新《检索增强生成（RAG）》综述

专知会员服务

58+阅读 · 2024年9月24日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

RAG与RAU：自然语言处理中的检索增强语言模型综述

RAG与RAU：自然语言处理中的检索增强语言模型综述

专知会员服务

89+阅读 · 2024年5月3日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

隐身技术前沿综述：物理机理、工程实践与战略展望

《以机反机：基于无人机载麦克风的空中周界入侵检测》

《美国空军B-2“幽灵”隐身轰炸机系统工程案例研究》117页

《多变海洋环境下无人水面艇与自主水下机器人对接的最优路径规划》

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

从T5到GPT-4最新最全梳理，人大等《大型语言模型综述》，51页pdf详述大模型进展

专知

26+阅读 · 2023年4月4日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知

22+阅读 · 2020年3月19日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

最新必读【预训练语言模型(BERT/XLNet等)】论文，Google/微软/华为ICLR2020提交论文

专知

36+阅读 · 2019年9月29日

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

【清华大学NLP】预训练语言模型（PLM）必读论文清单，附论文PDF、源码和模型链接

专知

40+阅读 · 2019年9月27日

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

一文看懂自然语言生成 - NLG（6个实现步骤+3个典型应用）

AINLP

11+阅读 · 2019年8月11日

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言自然语言处理：文本向量化——词嵌入（Word Embedding）

R语言中文社区

10+阅读 · 2019年4月6日

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

BAM！利用知识蒸馏和多任务学习构建的通用语言模型

机器之心

15+阅读 · 2019年3月18日

语料库构建——自然语言理解的基础

语料库构建——自然语言理解的基础

计算机研究与发展

11+阅读 · 2017年8月21日

相关论文

MemBoost: A Memory-Boosted Framework for Cost-Aware LLM Inference

Arxiv

0+阅读 · 6月15日

MolSight: Molecular Property Prediction with Images

Arxiv

0+阅读 · 6月14日

MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry

Arxiv

0+阅读 · 6月14日

SupraBench: A Benchmark for Supramolecular Chemistry

Arxiv

0+阅读 · 6月11日

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Arxiv

0+阅读 · 6月5日

MemGraphRAG: Memory-based Multi-Agent System for Graph Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月30日

Mixture-of-Experts Knowledge Graph Retrieval-Augmented Generation for Multi-Agent LLM-based Recommendation

Arxiv

0+阅读 · 5月29日

RAGe: A Retrieval-Augmented Generation Evaluation Framework

Arxiv

0+阅读 · 5月23日

Speak-to-Structure: Evaluating LLMs in Open-domain Natural Language-Driven Molecule Generation

Arxiv

0+阅读 · 5月22日

MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Arxiv

0+阅读 · 5月11日

相关基金

基于磁性金属有机骨架材料的低丰度蛋白/肽段高效选择分离分析新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于金属卟啉结构基元的微纳尺度MOFs的构建及其多相催化氧化性质的研究

国家自然科学基金

0+阅读 · 2015年12月31日

由金属有机框架和聚合物电解质制备复合质子传导膜及其结构和性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

锂离子电池用高容量富锂层状氧化物双晶畴结构演化机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

金属有机框架（MOFs）材料的构筑、纳米化及光学性能研究

国家自然科学基金

0+阅读 · 2015年12月31日

三维MOFs-贵金属复合物在表面增强拉曼散射中的传感效能研究

国家自然科学基金

0+阅读 · 2015年12月31日

重油组成矩阵的分子水平构建及基于结构导向集总的催化裂化反应动力学模型

国家自然科学基金

0+阅读 · 2014年12月31日

功能金属有机框架的吸附位优化及其CH4-N2分离机理

国家自然科学基金

0+阅读 · 2014年12月31日

互穿网络型离子液体修饰的高孔容金属-有机框架材料的构筑及捕集CO2机理研究

国家自然科学基金

0+阅读 · 2014年12月31日

高分子复合材料介观结构与宏观力学性质的模拟与关联

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员