Graph-Aware Late Chunking for Retrieval-Augmented Generation in Biomedical Literature - 专知论文

会员服务 ·

0

结构 · 生物 · 系统 · 检索增强 · 文献检索 ·

Graph-Aware Late Chunking for Retrieval-Augmented Generation in Biomedical Literature

翻译：面向生物医学文献检索增强生成的图感知延迟分块方法

Pouria Mortezaagha,Arya Rahgozar

Retrieval-Augmented Generation (RAG) systems for biomedical literature are typically evaluated using ranking metrics like Mean Reciprocal Rank (MRR), which measure how well the system identifies the single most relevant chunk. We argue that for full-text scientific documents, this paradigm is incomplete: it rewards retrieval precision while ignoring retrieval breadth -- the ability to surface evidence from across a document's structural sections. We propose GraLC-RAG, a framework that unifies late chunking with graph-aware structural intelligence, introducing structure-aware chunk boundary detection, UMLS knowledge graph infusion, and graph-guided hybrid retrieval. We evaluate six strategies on 2,359 IMRaD-filtered PubMed Central articles using 2,033 cross-section questions and two metric families: standard ranking metrics (MRR, Recall@k) and structural coverage metrics (SecCov@k, CS Recall). Our results expose a sharp divergence: content-similarity methods achieve the highest MRR (0.517) but always retrieve from a single section, while structure-aware methods retrieve from up to 15.6x more sections. Generation experiments show that KG-infused retrieval narrows the answer-quality gap to delta-F1 = 0.009 while maintaining 4.6x section diversity. These findings demonstrate that standard metrics systematically undervalue structural retrieval and that closing the multi-section synthesis gap is a key open problem for biomedical RAG.

翻译：检索增强生成（RAG）系统在生物医学文献中的评估通常采用平均倒数排名（MRR）等排序指标，这些指标衡量系统识别最相关单个文本块的能力。我们认为，对于全文科学文档而言，这一范式存在缺陷：它奖励检索精度而忽视检索广度——即从文档不同结构章节中呈现证据的能力。我们提出GraLC-RAG框架，该框架统一了延迟分块与图感知结构智能，引入了结构感知的文本块边界检测、UMLS知识图谱注入以及图引导的混合检索。我们在2,359篇经IMRaD筛选的PubMed Central文章上，使用2,033个跨章节问题及两类指标（标准排序指标MRR、Recall@k，以及结构覆盖指标SecCov@k、CS Recall）对六种策略进行了评估。实验结果揭示了显著差异：内容相似性方法取得了最高的MRR值（0.517），但始终仅从单一章节进行检索，而结构感知方法则能从多达15.6倍的章节中进行检索。生成实验表明，知识图谱注入式检索在将答案质量差距缩小至△-F1=0.009的同时，保持了4.6倍的章节多样性。这些发现表明，标准指标系统性地低估了结构检索的价值，而弥合多章节综合差距是生物医学RAG领域一项关键待解决问题。

0

相关内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

38+阅读 · 2024年11月5日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

开放知识图谱

52+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

【学界】基于条件深度卷积生成对抗网络的图像识别方法

【学界】基于条件深度卷积生成对抗网络的图像识别方法

GAN生成式对抗网络

16+阅读 · 2018年7月26日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高通量高灵敏度等离激元共振增强OI-RD光学生物传感方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于皮肤毛囊光学相干层析（OCT）成像的三维断层生物特征识别新方法

国家自然科学基金

1+阅读 · 2015年12月31日

发展适用于肿瘤细胞实时快速拉曼成像的光谱信号处理方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

Benchmarking Retrieval Strategies for Biomedical Retrieval-Augmented Generation: A Controlled Empirical Study

Benchmarking Retrieval Strategies for Biomedical Retrieval-Augmented Generation: A Controlled Empirical Study

Arxiv

0+阅读 · 5月4日

A Hybrid Retrieval and Reranking Framework for Evidence-Grounded Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月3日

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月1日

ragR: Retrieval-Augmented Generation and RAG Assessment in R

Arxiv

0+阅读 · 4月26日

MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

Arxiv

0+阅读 · 4月20日

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Arxiv

0+阅读 · 3月26日

GraphER: An Efficient Graph-Based Enrichment and Reranking Method for Retrieval-Augmented Generation

Arxiv

0+阅读 · 3月26日

Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

Arxiv

0+阅读 · 3月25日

Neurosymbolic Retrievers for Retrieval-augmented Generation

Arxiv

0+阅读 · 2月22日

Topology of Reasoning: Retrieved Cell Complex-Augmented Generation for Textual Graph Question Answering

Arxiv

0+阅读 · 2月22日

VIP会员

文章信息

相关主题

最新内容

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

专知会员服务

8+阅读 · 6月20日

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

专知会员服务

4+阅读 · 6月19日

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

专知会员服务

6+阅读 · 6月19日

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

ICML 2026 Spotlight | SmoothSMoE：解析稀疏 MoE 路由不连续

专知会员服务

6+阅读 · 6月18日

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

综述 | 周期表视角下的大模型推理：范式、方法与失败模式

专知会员服务

7+阅读 · 6月18日

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

《廉价自杀式无人机战争的军事战略影响：乌克兰和伊朗案例研究》

专知会员服务

11+阅读 · 6月18日

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

《面向反无人机作战的联邦式可解释射频–光电/红外情报融合：边缘人工智能优化、电子战韧性及分布式监视验证》

专知会员服务

11+阅读 · 6月18日

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

ICML 2026 | FR3D：解耦自车运动的未来动态三维重建世界模型

专知会员服务

7+阅读 · 6月17日

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

【伯克利博士论文】迈向可扩展与自我演进的大语言模型智能体

专知会员服务

11+阅读 · 6月17日

学习数据的几何：形状空间分析数学综述

学习数据的几何：形状空间分析数学综述

专知会员服务

8+阅读 · 6月17日

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

《现代防空系统综述：架构、传感器、拦截器及新兴威胁环境对基础设施受限防御环境的影响》2026最新长综述

专知会员服务

19+阅读 · 6月17日

定向能反无人机系统最新发展动态

定向能反无人机系统最新发展动态

专知会员服务

10+阅读 · 6月17日

从燃煤战舰到算法战争：水面指挥的永恒要求

从燃煤战舰到算法战争：水面指挥的永恒要求

专知会员服务

6+阅读 · 6月17日

《短程弹道再入飞行器拦截时间中的一项异常现象》

《短程弹道再入飞行器拦截时间中的一项异常现象》

专知会员服务

8+阅读 · 6月17日

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

《基于回归方法与任务上下文的对抗环境动态战术网络报文优先级排序》

专知会员服务

8+阅读 · 6月17日

相关VIP内容

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

【AAAI2026】TruthfulRAG：基于知识图谱解决检索增强生成中的事实层冲突

专知会员服务

22+阅读 · 2025年11月15日

检索增强生成（RAG）技术，261页slides

检索增强生成（RAG）技术，261页slides

专知会员服务

42+阅读 · 2025年10月16日

【新书】Essential GraphRAG: 知识图谱增强的RAG

【新书】Essential GraphRAG: 知识图谱增强的RAG

专知会员服务

35+阅读 · 2025年7月17日

【新书】检索增强生成（RAG）入门指南

【新书】检索增强生成（RAG）入门指南

专知会员服务

30+阅读 · 2025年6月25日

定制化大型语言模型的图检索增强生成综述

定制化大型语言模型的图检索增强生成综述

专知会员服务

38+阅读 · 2025年1月28日

图增强生成（GraphRAG）

图增强生成（GraphRAG）

专知会员服务

35+阅读 · 2025年1月4日

图检索增强生成研究进展

图检索增强生成研究进展

专知会员服务

38+阅读 · 2024年11月5日

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

【书籍】检索增强生成（RAG）在大规模语言模型（LLM）应用中的应用

专知会员服务

71+阅读 · 2024年10月7日

检索增强生成系统中的可信度：综述

检索增强生成系统中的可信度：综述

专知会员服务

44+阅读 · 2024年9月18日

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

图怎么用RAG？北大等最新《图检索增强生成(GraphRAG)》综述

专知会员服务

56+阅读 · 2024年8月22日

热门VIP内容

开通专知VIP会员享更多权益服务

深入解读 Palantir AIP：全球最具争议的人工智能平台究竟如何运作

ICML 2026 | 多任务贝叶斯上下文学习：让 Transformer 在测试时显式适应新先验

ACL 2026综述 | 大规模手语数据集：资源、基准与标注标准

相关资讯

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

论文浅尝 | 利用图 Transformer 实现基于知识图谱的文本生成

开放知识图谱

52+阅读 · 2019年9月1日

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

【综述】基于深度学习的图像数据增强方法最新进展，48页论文带你快速了解领域进展

专知

43+阅读 · 2019年7月10日

论文浅尝 | GraphIE:基于图的信息抽取框架

论文浅尝 | GraphIE:基于图的信息抽取框架

开放知识图谱

17+阅读 · 2019年6月2日

【学界】基于条件深度卷积生成对抗网络的图像识别方法

【学界】基于条件深度卷积生成对抗网络的图像识别方法

GAN生成式对抗网络

16+阅读 · 2018年7月26日

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

【论文推荐】最新5篇图像描述生成（Image Caption）相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

专知

66+阅读 · 2018年1月31日

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

IBM新论文|SamplePairing：针对图像处理领域的高效数据增强方式

极市平台

16+阅读 · 2018年1月20日

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

【论文】所见所想所真，对抗学习GAN提升跨模态检索效果！阿里巴巴AI Labs等团队最新工作

专知

12+阅读 · 2017年12月21日

论文报告 | Graph-based Neural Multi-Document Summarization

论文报告 | Graph-based Neural Multi-Document Summarization

科技创新与创业

15+阅读 · 2017年12月15日

基于图片内容的深度学习图片检索（一）

基于图片内容的深度学习图片检索（一）

七月在线实验室

20+阅读 · 2017年10月1日

相关论文

Benchmarking Retrieval Strategies for Biomedical Retrieval-Augmented Generation: A Controlled Empirical Study

Benchmarking Retrieval Strategies for Biomedical Retrieval-Augmented Generation: A Controlled Empirical Study

Arxiv

0+阅读 · 5月4日

A Hybrid Retrieval and Reranking Framework for Evidence-Grounded Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月3日

Hierarchical Abstract Tree for Cross-Document Retrieval-Augmented Generation

Arxiv

0+阅读 · 5月1日

ragR: Retrieval-Augmented Generation and RAG Assessment in R

Arxiv

0+阅读 · 4月26日

MegaRAG: Multimodal Knowledge Graph-Based Retrieval Augmented Generation

Arxiv

0+阅读 · 4月20日

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Arxiv

0+阅读 · 3月26日

GraphER: An Efficient Graph-Based Enrichment and Reranking Method for Retrieval-Augmented Generation

Arxiv

0+阅读 · 3月26日

Evaluating Chunking Strategies For Retrieval-Augmented Generation in Oil and Gas Enterprise Documents

Arxiv

0+阅读 · 3月25日

Neurosymbolic Retrievers for Retrieval-augmented Generation

Arxiv

0+阅读 · 2月22日

Topology of Reasoning: Retrieved Cell Complex-Augmented Generation for Textual Graph Question Answering

Arxiv

0+阅读 · 2月22日

相关基金

图文混合跨媒体知识单元的模糊分类方法研究

国家自然科学基金

1+阅读 · 2015年12月31日

高通量高灵敏度等离激元共振增强OI-RD光学生物传感方法及应用研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于皮肤毛囊光学相干层析（OCT）成像的三维断层生物特征识别新方法

国家自然科学基金

1+阅读 · 2015年12月31日

发展适用于肿瘤细胞实时快速拉曼成像的光谱信号处理方法

国家自然科学基金

0+阅读 · 2015年12月31日

面向在线检索的医学影像多特征降维方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

基于上下文感知和异质特征集成的SAR图像分割与评价

国家自然科学基金

2+阅读 · 2015年12月31日

复杂纵向数据的分位回归建模及其在生物医学大数据中的应用

国家自然科学基金

4+阅读 · 2015年12月31日

结合图像块联合聚类加权和混合分类器的非对齐稀疏表示识别方法

国家自然科学基金

1+阅读 · 2015年12月31日

基于概率图的文本检索模型及算法研究

国家自然科学基金

2+阅读 · 2014年12月31日

面向词汇功能的学术文本语义识别与知识图谱构建

国家自然科学基金

5+阅读 · 2014年12月31日

微信扫码咨询专知VIP会员