Retrieval-augmented generation (RAG) systems rely on accurate document retrieval to ground large language models (LLMs) in external knowledge, yet retrieval quality often degrades in corpora where topics overlap and thematic variation is high. This work proposes topic-enriched embeddings that integrate term-based signals and topic structure with contextual sentence embeddings. The approach combines TF-IDF with topic modeling and dimensionality reduction, using Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) to encode latent topical organization, and fuses these representations with a compact contextual encoder (all-MiniLM). By jointly capturing term-level and topic-level semantics, topic-enriched embeddings improve semantic clustering, increase retrieval precision, and reduce computational burden relative to purely contextual baselines. Experiments on a legal-text corpus show consistent gains in clustering coherence and retrieval metrics, suggesting that topic-enriched embeddings can serve as a practical component for more reliable knowledge-intensive RAG pipelines.


翻译:检索增强生成系统依赖准确的文档检索将大语言模型锚定于外部知识,但在主题重叠且主题变异度高的语料库中,检索质量常出现下降。本研究提出一种主题丰富嵌入方法,将基于词项的语义信号和主题结构与上下文句子嵌入相融合。该方法结合TF-IDF与主题建模及降维技术,利用潜在语义分析和潜在狄利克雷分布编码潜在主题结构,并将这些表征与紧凑型上下文编码器相融合。通过同时捕捉词项级和主题级语义,主题丰富嵌入相较于纯上下文基线方法,提升了语义聚类效果,提高了检索精度,并减轻了计算负担。在法律文本语料上的实验表明,该方法在聚类一致性和检索指标上均取得稳定提升,证明主题丰富嵌入可作为构建更可靠知识密集型检索增强生成流程的实用组件。

0
下载
关闭预览

相关内容

检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
【新书】检索增强生成(RAG)入门指南
专知会员服务
29+阅读 · 2025年6月25日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
23+阅读 · 2025年4月6日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
36+阅读 · 2024年11月5日
图嵌入(Graph embedding)综述
人工智能前沿讲习班
449+阅读 · 2019年4月30日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
深度学习 | 利用词嵌入对文本进行情感分析
沈浩老师
11+阅读 · 2017年10月19日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关VIP内容
检索增强生成(RAG)技术,261页slides
专知会员服务
41+阅读 · 2025年10月16日
大语言模型中的检索与结构化增强生成综述
专知会员服务
32+阅读 · 2025年9月17日
【新书】检索增强生成(RAG)入门指南
专知会员服务
29+阅读 · 2025年6月25日
多模态检索增强生成综述
专知会员服务
39+阅读 · 2025年4月15日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
23+阅读 · 2025年4月6日
多模态检索增强生成的综合综述
专知会员服务
43+阅读 · 2025年2月17日
定制化大型语言模型的图检索增强生成综述
专知会员服务
37+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
34+阅读 · 2025年1月4日
图检索增强生成研究进展
专知会员服务
36+阅读 · 2024年11月5日
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员