Benchmarking Retrieval-Augmented Generation for Chemistry - 专知论文

会员服务 ·

0

基准 · 语料 · 语料库 · 检索增强 · 基准测试 ·

Benchmarking Retrieval-Augmented Generation for Chemistry

翻译：化学领域检索增强生成的基准测试

Xianrui Zhong,Bowen Jin,Siru Ouyang,Yanzhen Shen,Qiao Jin,Yin Fang,Zhiyong Lu,Jiawei Han

from arxiv, Accepted to COLM 2025

Retrieval-augmented generation (RAG) has emerged as a powerful framework for enhancing large language models (LLMs) with external knowledge, particularly in scientific domains that demand specialized and dynamic information. Despite its promise, the application of RAG in the chemistry domain remains underexplored, primarily due to the lack of high-quality, domain-specific corpora and well-curated evaluation benchmarks. In this work, we introduce ChemRAG-Bench, a comprehensive benchmark designed to systematically assess the effectiveness of RAG across a diverse set of chemistry-related tasks. The accompanying chemistry corpus integrates heterogeneous knowledge sources, including scientific literature, the PubChem database, PubMed abstracts, textbooks, and Wikipedia entries. In addition, we present ChemRAG-Toolkit, a modular and extensible RAG toolkit that supports five retrieval algorithms and eight LLMs. Using ChemRAG-Toolkit, we demonstrate that RAG yields a substantial performance gain -- achieving an average relative improvement of 17.4% over direct inference methods. We further conduct in-depth analyses on retriever architectures, corpus selection, and the number of retrieved passages, culminating in practical recommendations to guide future research and deployment of RAG systems in the chemistry domain. The code and data is available at https://chemrag.github.io.

翻译：检索增强生成（RAG）已成为一种强大的框架，通过外部知识增强大型语言模型（LLMs）的能力，尤其是在需要专业且动态信息的科学领域。尽管前景广阔，RAG在化学领域的应用仍未得到充分探索，这主要归因于缺乏高质量、领域特定的语料库和精心策划的评估基准。本研究介绍了ChemRAG-Bench，这是一个旨在系统评估RAG在多样化化学相关任务中有效性的综合基准。配套的化学语料库整合了异构知识源，包括科学文献、PubChem数据库、PubMed摘要、教科书和维基百科条目。此外，我们提出了ChemRAG-Toolkit，一个模块化且可扩展的RAG工具包，支持五种检索算法和八种LLMs。使用ChemRAG-Toolkit，我们证明RAG带来了显著的性能提升——相较于直接推理方法，平均相对改进达到17.4%。我们进一步对检索器架构、语料库选择和检索段落数量进行了深入分析，最终提出了实用建议，以指导未来化学领域RAG系统的研究和部署。代码和数据可在https://chemrag.github.io获取。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【SIGIR2025教程】动态与参数化检索增强生成

【SIGIR2025教程】动态与参数化检索增强生成

专知会员服务

17+阅读 · 2025年7月14日

视觉中的检索增强生成与理解：综述与新展望

视觉中的检索增强生成与理解：综述与新展望

专知会员服务

24+阅读 · 2025年4月6日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

38+阅读 · 2024年11月5日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

专知

26+阅读 · 2017年10月11日

RACK7选择性结合活跃增强子的分子机制及生物学意义的研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于金属-TiO2界面肖特基势垒调控的表面增强拉曼散射研究

国家自然科学基金

0+阅读 · 2015年12月31日

近极限尺寸纳米结构的表面增强拉曼效应及其对红细胞携放氧能力的高通量检测

国家自然科学基金

0+阅读 · 2015年12月31日

废液中铀酰类化合物超灵敏检测用SERS基底纳米结构的设计与构建

国家自然科学基金

0+阅读 · 2015年12月31日

基于复合基底的氢同位素气体表面增强拉曼光谱研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于仿生分子识别及DNA循环放大技术的表面增强拉曼检测肿瘤细胞及单细胞分析

国家自然科学基金

0+阅读 · 2015年12月31日

肉类食品禁用/限用添加剂的表面增强拉曼光谱特性及基底作用机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于光子晶体光纤的茶叶痕量农药残留表面增强拉曼光谱检测研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于化学计量学的合成食品添加剂体外DNA靶向作用检测技术及其作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Arxiv

0+阅读 · 3月10日

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Arxiv

0+阅读 · 3月4日

Structure-Augmented Reasoning Generation

Arxiv

0+阅读 · 2月19日

Differentially Private Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月16日

Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain

Arxiv

0+阅读 · 2月12日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 2月11日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月10日

MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering

Arxiv

0+阅读 · 2月7日

Progressive Searching for Retrieval in RAG

Arxiv

0+阅读 · 2月7日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

VIP会员

文章信息

相关主题

最新内容

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

0+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

1+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

5+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

6+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

9+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

6+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

9+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

7+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

13+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

7+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

美智库《战术级指挥控制的迫切要求：构建弹性机动式指挥控制网络》报告

专知会员服务

9+阅读 · 6月17日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【SIGIR2025教程】动态与参数化检索增强生成

【SIGIR2025教程】动态与参数化检索增强生成

专知会员服务

17+阅读 · 2025年7月14日

视觉中的检索增强生成与理解：综述与新展望

视觉中的检索增强生成与理解：综述与新展望

专知会员服务

24+阅读 · 2025年4月6日

多模态检索增强生成的综合综述

多模态检索增强生成的综合综述

专知会员服务

44+阅读 · 2025年2月17日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

38+阅读 · 2024年11月5日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

热门VIP内容

开通专知VIP会员享更多权益服务

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

基于模型的强化学习综述

基于模型的强化学习综述

专知

42+阅读 · 2022年7月13日

【MIT博士论文】数据高效强化学习，176页pdf

【MIT博士论文】数据高效强化学习，176页pdf

专知

19+阅读 · 2022年7月11日

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

探索(Exploration)还是利用(Exploitation)？强化学习如何tradeoff？

深度强化学习实验室

13+阅读 · 2020年8月23日

强化学习与文本生成

强化学习与文本生成

微信AI

41+阅读 · 2019年4月4日

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

NLP-Progress记录NLP最新数据集、论文和代码: 助你紧跟NLP前沿

中国人工智能学会

12+阅读 · 2018年11月15日

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

推荐｜上交大推出Texygen：文本生成模型的基准测试平台

全球人工智能

15+阅读 · 2018年2月8日

关于强化学习（附代码，练习和解答）

关于强化学习（附代码，练习和解答）

深度学习

38+阅读 · 2018年1月30日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

【干货】RL-GAN For NLP: 强化学习在生成对抗网络文本生成中扮演的角色

专知

26+阅读 · 2017年10月11日

相关论文

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Arxiv

0+阅读 · 3月10日

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Arxiv

0+阅读 · 3月4日

Structure-Augmented Reasoning Generation

Arxiv

0+阅读 · 2月19日

Differentially Private Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月16日

Pursuing Best Industrial Practices for Retrieval-Augmented Generation in the Medical Domain

Arxiv

0+阅读 · 2月12日

MRAG: Benchmarking Retrieval-Augmented Generation for Bio-medicine

Arxiv

0+阅读 · 2月11日

Benchmarking Knowledge-Extraction Attack and Defense on Retrieval-Augmented Generation

Arxiv

0+阅读 · 2月10日

MIXRAG : Mixture-of-Experts Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering

Arxiv

0+阅读 · 2月7日

Progressive Searching for Retrieval in RAG

Arxiv

0+阅读 · 2月7日

A Survey on Retrieval-Augmented Text Generation for Large Language Models

Arxiv

17+阅读 · 2024年4月17日

相关基金

RACK7选择性结合活跃增强子的分子机制及生物学意义的研究

国家自然科学基金

0+阅读 · 2016年12月31日

基于金属-TiO2界面肖特基势垒调控的表面增强拉曼散射研究

国家自然科学基金

0+阅读 · 2015年12月31日

近极限尺寸纳米结构的表面增强拉曼效应及其对红细胞携放氧能力的高通量检测

国家自然科学基金

0+阅读 · 2015年12月31日

废液中铀酰类化合物超灵敏检测用SERS基底纳米结构的设计与构建

国家自然科学基金

0+阅读 · 2015年12月31日

基于复合基底的氢同位素气体表面增强拉曼光谱研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于仿生分子识别及DNA循环放大技术的表面增强拉曼检测肿瘤细胞及单细胞分析

国家自然科学基金

0+阅读 · 2015年12月31日

肉类食品禁用/限用添加剂的表面增强拉曼光谱特性及基底作用机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于深度学习的三维模型检索技术

国家自然科学基金

13+阅读 · 2014年12月31日

基于光子晶体光纤的茶叶痕量农药残留表面增强拉曼光谱检测研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于化学计量学的合成食品添加剂体外DNA靶向作用检测技术及其作用机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员