RAGPPI: RAG Benchmark for Protein-Protein Interactions in Drug Discovery - 专知论文

会员服务 ·

0

基准 · 问答 · 蛋白质-蛋白质 · 蛋白质相互作用 · 相互作用 ·

RAGPPI: RAG Benchmark for Protein-Protein Interactions in Drug Discovery

翻译：RAGPPI：药物发现中蛋白质-蛋白质相互作用的RAG基准

Youngseung Jeon,Ziwen Li,Thomas Li,JiaSyuan Chang,Morteza Ziyadi,Xiang 'Anthony' Chen

from arxiv, 17 pages, 4 figures, 8 tables

Retrieving the biological impacts of protein-protein interactions (PPIs) is essential for target identification (Target ID) in drug development. Given the vast number of proteins involved, this process remains time-consuming and challenging. Large Language Models (LLMs) and Retrieval-Augmented Generation (RAG) frameworks have supported Target ID; however, no benchmark currently exists for identifying the biological impacts of PPIs. To bridge this gap, we introduce the RAG Benchmark for PPIs (RAGPPI), a factual question-answer benchmark of 4,420 question-answer pairs that focus on the potential biological impacts of PPIs. Through interviews with experts, we identified criteria for a benchmark dataset, such as a type of QA and source. We built a gold-standard dataset (500 QA pairs) through expert-driven data annotation. We developed an ensemble auto-evaluation LLM that incorporates expert labeling characteristics, average fact-abstract similarity (F1), and low-similarity fact counts (F2), enabling the construction of a silver-standard dataset (3,720 QA pairs). We are committed to maintaining RAGPPI as a resource to support the research community in advancing RAG systems for drug discovery QA solutions.

翻译：在药物开发中，检索蛋白质-蛋白质相互作用（PPIs）的生物学影响对于靶点识别（Target ID）至关重要。鉴于涉及的蛋白质数量庞大，这一过程仍然耗时且充满挑战。大型语言模型（LLMs）与检索增强生成（RAG）框架已为靶点识别提供支持，但目前尚无针对PPIs生物学影响识别的基准。为填补这一空白，我们提出了PPIs的RAG基准（RAGPPI），这是一个包含4,420个问答对的事实性问答基准，聚焦于PPIs潜在的生物学影响。通过专家访谈，我们确定了基准数据集的关键标准，例如问答类型和数据来源。我们基于专家驱动的数据标注构建了黄金标准数据集（500个问答对）。我们开发了一种集成自动评估LLM，该模型融合了专家标注特征、平均事实-摘要相似度（F1）以及低相似度事实计数（F2），从而构建了白银标准数据集（3,720个问答对）。我们致力于将RAGPPI作为资源持续维护，以支持研究社区推进面向药物发现问答解决方案的RAG系统。

0

相关内容

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

ChatGPT预测和解释常见药物-药物相互作用的能力

ChatGPT预测和解释常见药物-药物相互作用的能力

专知会员服务

27+阅读 · 2023年5月20日

GML如何做药物发现？奥尔胡斯大学最新《知识增强图机器学习在药物发现中的应用》综述，37页pdf详述KaGML从精确性到可解释性

GML如何做药物发现？奥尔胡斯大学最新《知识增强图机器学习在药物发现中的应用》综述，37页pdf详述KaGML从精确性到可解释性

专知会员服务

24+阅读 · 2023年2月20日

重磅！《人工智能与药物发现》白皮书发布，中国人工智能学会，158页pdf

重磅！《人工智能与药物发现》白皮书发布，中国人工智能学会，158页pdf

专知会员服务

70+阅读 · 2022年12月4日

DTI-HETA：基于异构图的图卷积药物-靶标相互作用预测

DTI-HETA：基于异构图的图卷积药物-靶标相互作用预测

专知会员服务

18+阅读 · 2022年9月25日

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

专知会员服务

23+阅读 · 2022年7月22日

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

专知会员服务

11+阅读 · 2022年6月23日

综述：药物发现中的机器学习

专知会员服务

86+阅读 · 2021年10月11日

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

功能选择性beta2肾上腺素受体激动剂的发现

国家自然科学基金

0+阅读 · 2016年12月31日

基于单个量子点荧光共定位光谱成像的“药物亲和响应靶点稳定性”技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

全新骨架组蛋白甲基转移酶G9a抑制剂的构效关系、结合模式及作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于直链的杂交链式反应在核酸与蛋白质检测中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于三维结构和复杂网络的Hub蛋白质的功能研究

国家自然科学基金

0+阅读 · 2015年12月31日

G蛋白偶联受体结构及与药物配体结合的计算研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

小鼠糖基化磷脂酰肌醇锚定高密度脂蛋白结合蛋白1（GPIHBP1）基因缺陷在糖尿病肾病中的作用及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

PACE-RAG: Patient-Aware Contextual and Evidence-Constrained RAG for Clinical Drug Recommendation

Arxiv

0+阅读 · 6月16日

Where Black-box Drug-Target Interaction Prediction Models Look: Cross-Method Explainability

Arxiv

0+阅读 · 6月12日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 6月10日

Agent-Orchestrated Adaptive RAG: A Comparative Study on Structured and Multi-Hop Retrieval

Arxiv

0+阅读 · 6月4日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 5月29日

PROTOCOL: Late Interaction Retrieval for Protein Homolog Search

Arxiv

0+阅读 · 5月27日

RAG-Match: Retrieval-Augmented Knowledge Injection and Hierarchical Reasoning for Calibrated Semantic Relevance

Arxiv

0+阅读 · 5月25日

RAGe: A Retrieval-Augmented Generation Evaluation Framework

Arxiv

0+阅读 · 5月23日

Protein Thoughts: Interpretable Reasoning with Tree of Thoughts and Embedding-Space Flow Matching for Protein-Protein Interaction Discovery

Arxiv

0+阅读 · 5月19日

PPI2Text: Captioning Protein-Protein Interactions with Coordinate-Aligned Pair-Map Decoding

Arxiv

0+阅读 · 5月9日

VIP会员

文章信息

相关主题

蛋白质-蛋白质

蛋白质相互作用

最新内容

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

专知会员服务

1+阅读 · 今天15:02

综述 | 3D场景图：开放挑战与未来方向

综述 | 3D场景图：开放挑战与未来方向

专知会员服务

1+阅读 · 今天15:00

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

专知会员服务

2+阅读 · 今天14:30

21世纪的无人机战争

21世纪的无人机战争

专知会员服务

2+阅读 · 今天14:05

《伊朗与以色列-美国热战及其对数字技术的影响》

《伊朗与以色列-美国热战及其对数字技术的影响》

专知会员服务

2+阅读 · 今天13:55

《量子技术的军事任务技术适配与利用》

《量子技术的军事任务技术适配与利用》

专知会员服务

2+阅读 · 今天13:51

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

《美国陆军军官学校（西点军校）本科生科研中生成式人工智能的使用》

专知会员服务

2+阅读 · 今天13:48

美国从乌克兰无人机战争中学习经验

美国从乌克兰无人机战争中学习经验

专知会员服务

7+阅读 · 6月21日

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

ICML 2026 | 面向视觉语言模型的语义鲁棒性认证

专知会员服务

5+阅读 · 6月21日

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

综述 | 智能体电子设计自动化：从“交接有效性”重新理解Agentic EDA

专知会员服务

7+阅读 · 6月21日

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

20+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

5+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

8+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

7+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

9+阅读 · 6月18日

相关VIP内容

检索增强生成(RAG)与推理的协同作用：一项系统综述

检索增强生成(RAG)与推理的协同作用：一项系统综述

专知会员服务

16+阅读 · 2025年4月27日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

RAG+LLM=？同济大学等最新《大型语言模型的检索增强生成》综述

专知会员服务

111+阅读 · 2023年12月19日

ChatGPT预测和解释常见药物-药物相互作用的能力

ChatGPT预测和解释常见药物-药物相互作用的能力

专知会员服务

27+阅读 · 2023年5月20日

GML如何做药物发现？奥尔胡斯大学最新《知识增强图机器学习在药物发现中的应用》综述，37页pdf详述KaGML从精确性到可解释性

GML如何做药物发现？奥尔胡斯大学最新《知识增强图机器学习在药物发现中的应用》综述，37页pdf详述KaGML从精确性到可解释性

专知会员服务

24+阅读 · 2023年2月20日

重磅！《人工智能与药物发现》白皮书发布，中国人工智能学会，158页pdf

重磅！《人工智能与药物发现》白皮书发布，中国人工智能学会，158页pdf

专知会员服务

70+阅读 · 2022年12月4日

DTI-HETA：基于异构图的图卷积药物-靶标相互作用预测

DTI-HETA：基于异构图的图卷积药物-靶标相互作用预测

专知会员服务

18+阅读 · 2022年9月25日

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

Chem. Sci.｜MGraphDTA：基于深层多尺度图神经网络预测药物-靶标亲和力

专知会员服务

23+阅读 · 2022年7月22日

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

J. Med. Chem. | RELATION: 一种基于靶标结构的深度学习全新药物设计模型

专知会员服务

11+阅读 · 2022年6月23日

综述：药物发现中的机器学习

专知会员服务

86+阅读 · 2021年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

综述 | 3D场景图：开放挑战与未来方向

21世纪的无人机战争

ICML 2026 | 边界嵌入塑形：用自适应对比学习破解图结构纠缠

《国防工业6.0：全自主作战系统、量子-人工智能融合与新一代战略威慑》

相关资讯

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

【AI+生物医学】耶鲁大学最新博士论文《图先验、最优传输和深度学习在生物医学发现中的应用》231页pdf

专知

11+阅读 · 2022年4月29日

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

【AI+医疗】斯坦福大学最新博士论文《深度学习在医学影像理解中的应用》，205页pdf

专知

23+阅读 · 2022年4月5日

药物化学第二期：蛋白质-小分子对接Score函数总结

药物化学第二期：蛋白质-小分子对接Score函数总结

GenomicAI

30+阅读 · 2022年3月5日

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

重磅！最新AI药物研发：白皮书、国内外技术报告、干货书、综述论文、关键技术最新论文（含实现代码）、数据集、教程课程讲解

GenomicAI

14+阅读 · 2022年2月19日

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

KAUST高欣组研发基于深度学习的研究RNA和RBP相互作用的全新方法｜Nat. Commun.

科研圈

17+阅读 · 2019年10月30日

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

超越标准 GNN ！DeepMind、谷歌提出图匹配网络| ICML最新论文

新智元

20+阅读 · 2019年5月6日

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

最新最权威《深度学习显著目标检测综述》论文代码数据发布，带你全面了解显著目标检测方法

专知

79+阅读 · 2019年4月24日

目标检测集成框架在医学图像 AI 辅助分析中的应用

目标检测集成框架在医学图像 AI 辅助分析中的应用

AI掘金志

11+阅读 · 2019年3月1日

【深度学习】增加检测类别？这是一份目标检测的一般指南

【深度学习】增加检测类别？这是一份目标检测的一般指南

产业智能官

13+阅读 · 2018年5月27日

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

【干货】结合单阶段和两阶段目标检测的优势：基于单次精化神经网络的目标检测方法

专知

12+阅读 · 2018年1月12日

相关论文

PACE-RAG: Patient-Aware Contextual and Evidence-Constrained RAG for Clinical Drug Recommendation

Arxiv

0+阅读 · 6月16日

Where Black-box Drug-Target Interaction Prediction Models Look: Cross-Method Explainability

Arxiv

0+阅读 · 6月12日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 6月10日

Agent-Orchestrated Adaptive RAG: A Comparative Study on Structured and Multi-Hop Retrieval

Arxiv

0+阅读 · 6月4日

Evaluating Factual Density in Multi-Source RAG: A Study in Medical AI Accuracy

Arxiv

0+阅读 · 5月29日

PROTOCOL: Late Interaction Retrieval for Protein Homolog Search

Arxiv

0+阅读 · 5月27日

RAG-Match: Retrieval-Augmented Knowledge Injection and Hierarchical Reasoning for Calibrated Semantic Relevance

Arxiv

0+阅读 · 5月25日

RAGe: A Retrieval-Augmented Generation Evaluation Framework

Arxiv

0+阅读 · 5月23日

Protein Thoughts: Interpretable Reasoning with Tree of Thoughts and Embedding-Space Flow Matching for Protein-Protein Interaction Discovery

Arxiv

0+阅读 · 5月19日

PPI2Text: Captioning Protein-Protein Interactions with Coordinate-Aligned Pair-Map Decoding

Arxiv

0+阅读 · 5月9日

相关基金

功能选择性beta2肾上腺素受体激动剂的发现

国家自然科学基金

0+阅读 · 2016年12月31日

基于单个量子点荧光共定位光谱成像的“药物亲和响应靶点稳定性”技术研究

国家自然科学基金

0+阅读 · 2015年12月31日

全新骨架组蛋白甲基转移酶G9a抑制剂的构效关系、结合模式及作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于直链的杂交链式反应在核酸与蛋白质检测中的应用

国家自然科学基金

0+阅读 · 2015年12月31日

基于多生物网络的蛋白质功能预测算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于三维结构和复杂网络的Hub蛋白质的功能研究

国家自然科学基金

0+阅读 · 2015年12月31日

G蛋白偶联受体结构及与药物配体结合的计算研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于结构与序列信息的蛋白质-配体结合位点的预测

国家自然科学基金

8+阅读 · 2015年12月31日

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

国家自然科学基金

0+阅读 · 2014年12月31日

小鼠糖基化磷脂酰肌醇锚定高密度脂蛋白结合蛋白1（GPIHBP1）基因缺陷在糖尿病肾病中的作用及机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员