Retrieval-augmented generation (RAG) systems rely on accurate document retrieval to ground large language models (LLMs) in external knowledge, yet retrieval quality often degrades in corpora where topics overlap and thematic variation is high. This work proposes topic-enriched embeddings that integrate term-based signals and topic structure with contextual sentence embeddings. The approach combines TF-IDF with topic modeling and dimensionality reduction, using Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) to encode latent topical organization, and fuses these representations with a compact contextual encoder (all-MiniLM). By jointly capturing term-level and topic-level semantics, topic-enriched embeddings improve semantic clustering, increase retrieval precision, and reduce computational burden relative to purely contextual baselines. Experiments on a legal-text corpus show consistent gains in clustering coherence and retrieval metrics, suggesting that topic-enriched embeddings can serve as a practical component for more reliable knowledge-intensive RAG pipelines.


翻译:检索增强生成系统依赖准确的文档检索将大语言模型锚定于外部知识,但在主题重叠且主题变异度高的语料库中,检索质量常出现下降。本研究提出一种主题丰富嵌入方法,将基于词项的语义信号和主题结构与上下文句子嵌入相融合。该方法结合TF-IDF与主题建模及降维技术,利用潜在语义分析和潜在狄利克雷分布编码潜在主题结构,并将这些表征与紧凑型上下文编码器相融合。通过同时捕捉词项级和主题级语义,主题丰富嵌入相较于纯上下文基线方法,提升了语义聚类效果,提高了检索精度,并减轻了计算负担。在法律文本语料上的实验表明,该方法在聚类一致性和检索指标上均取得稳定提升,证明主题丰富嵌入可作为构建更可靠知识密集型检索增强生成流程的实用组件。

0
下载
关闭预览

相关内容

专知会员服务
17+阅读 · 2021年8月24日
论文浅尝 | GEOM-GCN: Geometric Graph Convolutional Networks
开放知识图谱
14+阅读 · 2020年4月8日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员