Deploying Retrieval-Augmented Generation (RAG) on edge devices is in high demand, but is hindered by the latency of massive data movement and computation on traditional architectures. Compute-in-Memory (CiM) architectures address this bottleneck by performing vector search directly within their crossbar structure. However, CiM's adoption for RAG is limited by a fundamental ``representation gap,'' as high-precision, high-dimension embeddings are incompatible with CiM's low-precision, low-dimension array constraints. This gap is compounded by the diversity of CiM implementations (e.g., SRAM, ReRAM, FeFET), each with unique designs (e.g., 2-bit cells, 512x512 arrays). Consequently, RAG data must be naively reshaped to fit each target implementation. Current data shaping methods handle dimension and precision disjointly, which degrades data fidelity. This not only negates the advantages of CiM for RAG but also confuses hardware designers, making it unclear if a failure is due to the circuit design or the degraded input data. As a result, CiM adoption remains limited. In this paper, we introduce CQ-CiM, a unified, hardware-aware data shaping framework that jointly learns Compression and Quantization to produce CiM-compatible low-bit embeddings for diverse CiM designs. To the best of our knowledge, this is the first work to shape data for comprehensive CiM usage on RAG.


翻译:在边缘设备上部署检索增强生成(RAG)的需求日益增长,但传统架构中大规模数据移动与计算所产生的高延迟阻碍了其应用。计算内存(CiM)架构通过在其交叉阵列结构内部直接执行向量搜索,有效解决了这一瓶颈。然而,CiM在RAG中的应用受到一个根本性“表示鸿沟”的限制:高精度、高维度的嵌入向量与CiM的低精度、低维度阵列约束不相容。这一鸿沟因CiM实现方案的多样性(如SRAM、ReRAM、FeFET)而进一步加剧,每种方案均具有独特的设计参数(例如2位单元、512×512阵列)。因此,RAG数据往往需要被简单重塑以适应每种目标实现。现有的数据塑形方法将维度与精度处理分离,这损害了数据保真度。此举不仅抵消了CiM用于RAG的优势,也使硬件设计者感到困惑,难以判断故障是源于电路设计还是劣化的输入数据。因此,CiM的采用仍然受限。本文提出CQ-CiM,一个统一的硬件感知数据塑形框架,通过联合学习压缩与量化,为多样化的CiM设计生成兼容的低比特嵌入向量。据我们所知,这是首个为RAG全面使用CiM而进行数据塑形的研究工作。

0
下载
关闭预览

相关内容

【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
51+阅读 · 2024年4月18日
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
2018年边缘计算行业研究报告
行业研究报告
12+阅读 · 2019年4月15日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
VIP会员
最新内容
【CMU博士论文】物理世界的视觉感知与深度理解
专知会员服务
0+阅读 · 今天14:36
伊朗战争停火期间美军关键弹药状况分析
专知会员服务
6+阅读 · 今天11:13
电子战革命:塑造战场的十年突破(2015–2025)
专知会员服务
4+阅读 · 今天9:19
人工智能即服务与未来战争(印度视角)
专知会员服务
2+阅读 · 今天7:57
《美国战争部2027财年军事人员预算》
专知会员服务
2+阅读 · 今天7:44
伊朗战争中的电子战
专知会员服务
5+阅读 · 今天7:04
大语言模型平台在国防情报应用中的对比
专知会员服务
8+阅读 · 今天3:12
相关VIP内容
【SIGIR2025教程】动态与参数化检索增强生成
专知会员服务
17+阅读 · 2025年7月14日
视觉中的检索增强生成与理解:综述与新展望
专知会员服务
24+阅读 · 2025年4月6日
定制化大型语言模型的图检索增强生成综述
专知会员服务
38+阅读 · 2025年1月28日
图增强生成(GraphRAG)
专知会员服务
35+阅读 · 2025年1月4日
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
边缘AI行业深度:边缘AI硬件,引领硬件创新时代
专知会员服务
51+阅读 · 2024年4月18日
相关资讯
《“边缘计算+”技术白皮书》,82页pdf
专知
11+阅读 · 2022年8月28日
2018年边缘计算行业研究报告
行业研究报告
12+阅读 · 2019年4月15日
【边缘智能】边缘计算驱动的深度学习加速技术
产业智能官
20+阅读 · 2019年2月8日
边缘计算应用:传感数据异常实时检测算法
计算机研究与发展
11+阅读 · 2018年4月10日
干货|从LSTM到Seq2Seq
全球人工智能
15+阅读 · 2018年1月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员