We introduce \emph{Adaptive RAG Memory} (ARM), a retrieval-augmented generation (RAG) framework that replaces a static vector index with a \emph{dynamic} memory substrate governed by selective remembrance and decay. Frequently retrieved items are consolidated and protected from forgetting, while rarely used items gradually decay, inspired by cognitive consolidation and forgetting principles. On a lightweight retrieval benchmark, ARM reaches near state-of-the-art performance (e.g., NDCG@5 $\approx$ 0.940, Recall@5 $=1.000$) with only $\sim$22M parameters in the embedding layer, achieving the best efficiency among ultra-efficient models ($<$25M parameters). In addition, we compare static vs. dynamic RAG combinations across Llama 3.1 and GPT-4o. Llama 3.1 with static RAG achieves the highest key-term coverage (67.2\%) at moderate latency, while GPT-4o with a dynamic selective retrieval policy attains the fastest responses (8.2s on average) with competitive coverage (58.7\%). We further present an engineering optimization of the DynamicRAG implementation, making embedding weights configurable, adjustable at runtime, and robust to invalid settings. ARM yields competitive accuracy, self-regularizing memory growth, and interpretable retention dynamics without retraining the generator\color{black} and provides practical trade-off between quality, latency and memory efficiency for production and research RAG system.


翻译:我们提出了一种**自适应RAG记忆**(ARM)框架,这是一种检索增强生成(RAG)系统,它用一个由选择性记忆与遗忘机制控制的**动态**记忆基底取代了静态的向量索引。受认知巩固与遗忘原理的启发,频繁检索到的信息会被巩固并防止遗忘,而极少使用的信息则会逐渐衰减。在一个轻量级检索基准测试中,ARM在嵌入层仅使用约2200万参数的情况下,达到了接近最先进的性能(例如,NDCG@5 $\approx$ 0.940,Recall@5 $=1.000$),在超高效模型(参数<2500万)中实现了最佳效率。此外,我们比较了Llama 3.1和GPT-4o模型上静态与动态RAG的组合效果。采用静态RAG的Llama 3.1在中等延迟下实现了最高的关键术语覆盖率(67.2%),而采用动态选择性检索策略的GPT-4o则获得了最快的响应速度(平均8.2秒)和具有竞争力的覆盖率(58.7%)。我们进一步介绍了DynamicRAG实现的一项工程优化,使得嵌入权重可配置、可在运行时调整,并对无效设置具有鲁棒性。ARM在无需重新训练生成器的情况下,提供了具有竞争力的准确性、自我调节的内存增长以及可解释的保留动态,并为生产和研究型RAG系统在质量、延迟和内存效率之间提供了实用的权衡。

0
下载
关闭预览

相关内容

【CVPR2024】学习视觉Transformer的相关结构
专知会员服务
27+阅读 · 2024年4月8日
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关资讯
【CVPR 2020 Oral】小样本类增量学习
专知
20+阅读 · 2020年6月26日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
CosFace: Large Margin Cosine Loss for Deep Face Recognition论文笔记
统计学习与视觉计算组
44+阅读 · 2018年4月25日
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2016年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员