Private information retrieval (PIR) allows private database queries; however, it is hindered by intense server-side computation and memory traffic. Numerous modern lattice-based PIR protocols consist of three phases: ExpandQuery (expanding a query into encrypted indices), RowSel (encrypted row selection), and ColTor (recursive "column tournament" for final selection). ExpandQuery and ColTor primarily perform number-theoretic transforms (NTTs), whereas RowSel reduces to large-scale independent matrix-matrix multiplications (GEMMs). GPUs are well suited for these tasks when combined with multi-client batching, which is necessary for high throughput. However, batching fundamentally reshapes the performance bottlenecks: while it amortizes database access costs, it expands working sets beyond the L2 cache capacity, causing divergent memory access behavior and excessive DRAM traffic. We present GPIR, a GPU-accelerated PIR system that rethinks kernel design, data layout, and execution scheduling. We introduce a stage-aware hybrid execution model that dynamically switches between operation-level kernels, which execute each primitive operation separately, and stage-level kernels, which fuse all operations within a stage into a single kernel to maximize on-chip data reuse. For RowSel, we resolve the mismatch between NTT-driven layouts and tiled GEMMs using a transposed-layout design with fine-grained pipelining. We further extend GPIR to multi-GPU systems, scaling throughput and database capacity with negligible communication overhead. GPIR achieves up to 297.2x higher throughput than PIRonGPU, the state-of-the-art GPU implementation.


翻译:私有信息检索(PIR)允许对数据库进行私密查询,但其性能受限于密集的服务器端计算和内存流量。许多现代基于格的PIR协议包含三个阶段:ExpandQuery(将查询扩展为加密索引)、RowSel(加密行选择)和ColTor(用于最终选择的递归“列锦标赛”)。ExpandQuery和ColTor主要执行数论变换(NTT),而RowSel则简化为大规模独立矩阵乘法(GEMM)。当与多客户端批处理结合时,GPU非常适合这些任务,而多客户端批处理是实现高吞吐量的必要条件。然而,批处理从根本上改变了性能瓶颈:虽然它分摊了数据库访问成本,但将工作集扩展到L2缓存容量之外,导致内存访问行为发散和DRAM流量过高。我们提出了GPIR,这是一个重新设计内核、数据布局和执行调度的GPU加速PIR系统。我们引入了一种阶段感知的混合执行模型,该模型在操作级内核(分别执行每个原始操作)和阶段级内核(将阶段内所有操作融合到单个内核中以最大化片上数据重用)之间动态切换。对于RowSel,我们通过使用具有细粒度流水线的转置布局设计解决了NTT驱动布局与分块GEMM之间的不匹配。我们进一步将GPIR扩展到多GPU系统,在通信开销可忽略的情况下扩展吞吐量和数据库容量。GPIR的吞吐量比最先进的GPU实现PIRonGPU高出297.2倍。

0
下载
关闭预览

相关内容

《隐私计算白皮书(2021年)》正式发布(附下载链接)
专知会员服务
96+阅读 · 2021年7月22日
Palantir的新专利曝光:挖掘和整合全世界的数据
炼数成金订阅号
20+阅读 · 2018年3月30日
基于图片内容的深度学习图片检索(一)
七月在线实验室
20+阅读 · 2017年10月1日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关主题
最新内容
ICML 2026 | CFPO:用反事实策略优化提升多模态推理
专知会员服务
1+阅读 · 今天14:45
综述 | 世界动作模型:少做梦,多行动
专知会员服务
1+阅读 · 今天14:43
美以伊冲突:无人机与人工智能的运用
专知会员服务
3+阅读 · 今天14:31
《特种部队在透明战场中的生存力》最新报告
专知会员服务
2+阅读 · 今天14:11
《人工智能生成的零日漏洞:对未来作战的影响》
综述 | 3D场景图:开放挑战与未来方向
专知会员服务
8+阅读 · 6月22日
21世纪的无人机战争
专知会员服务
4+阅读 · 6月22日
《量子技术的军事任务技术适配与利用》
专知会员服务
5+阅读 · 6月22日
相关VIP内容
《隐私计算白皮书(2021年)》正式发布(附下载链接)
专知会员服务
96+阅读 · 2021年7月22日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
13+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员