Dense retrieval services increasingly underpin semantic search, recommendation, and retrieval-augmented generation, yet clients typically receive only a top-$k$ list with no auditable evidence of how it was produced. We present V3DB, a verifiable, versioned vector-search service that enables audit-on-demand correctness checks for approximate nearest-neighbour (ANN) retrieval executed by a potentially untrusted service provider. V3DB commits to each corpus snapshot and standardises an IVF-PQ search pipeline into a fixed-shape, five-step query semantics. Given a public snapshot commitment and a query embedding, the service returns the top-$k$ payloads and, when challenged, produces a succinct zero-knowledge proof that the output is exactly the result of executing the published semantics on the committed snapshot -- without revealing the embedding corpus or private index contents. To make proving practical, V3DB avoids costly in-circuit sorting and random access by combining multiset equality/inclusion checks with lightweight boundary conditions. Our prototype implementation based on Plonky2 achieves up to $22\times$ faster proving and up to $40\%$ lower peak memory consumption than the circuit-only baseline, with millisecond-level verification time. Github Repo at https://github.com/TabibitoQZP/zk-IVF-PQ.


翻译:密集检索服务日益成为语义搜索、推荐系统和检索增强生成的基础,然而客户端通常仅收到一个前$k$项列表,且无法获得关于结果生成过程的可审计证据。本文提出V3DB——一个可验证的版本化向量搜索服务,支持对潜在不可信服务提供商执行的近似最近邻检索进行按需正确性审计。V3DB通过承诺机制固化每个语料库快照,并将标准化的IVF-PQ检索流程转化为具有固定结构的五步查询语义。在给定公开快照承诺和查询向量的前提下,服务端返回前$k$项有效载荷,并在接受质询时生成简洁的零知识证明,证实输出结果完全是在承诺快照上执行公开语义的产物,且无需泄露向量语料库或私有索引内容。为实现高效证明生成,V3DB通过结合多重集等价性/包含性检验与轻量级边界条件,避免了电路内高成本排序和随机访问操作。基于Plonky2构建的原型系统相较于纯电路基线方案,证明生成速度提升最高达$22$倍,峰值内存消耗降低最高达$40\%$,验证时间保持在毫秒级。项目代码仓库:https://github.com/TabibitoQZP/zk-IVF-PQ。

0
下载
关闭预览

相关内容

互联网
检索增强生成系统中的可信度:综述
专知会员服务
44+阅读 · 2024年9月18日
【知乎】超越Lexical:用于文本搜索引擎的语义检索框架
专知会员服务
22+阅读 · 2020年8月28日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
YOLO V3 检测框架以及它的前世今生 | Paper Reading
MomentaAI
12+阅读 · 2018年5月15日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 2月2日
Arxiv
15+阅读 · 2023年10月21日
VIP会员
最新内容
《Palantir的科技生态系统》
专知会员服务
0+阅读 · 41分钟前
《反无人机系统传感器融合》90页报告
专知会员服务
3+阅读 · 今天14:57
运用人工智能与卫星通信驱散“战争迷雾”
专知会员服务
1+阅读 · 今天14:45
ACL 2026 | LLMSurgeon:从生成文本诊断大模型训练数据
【综述】世界模型:架构、方法、推理与应用全景
综述 | OPSD:大语言模型的在线策略自蒸馏
专知会员服务
3+阅读 · 6月1日
帕兰蒂尔Maven:军事人工智能的新纪元
专知会员服务
8+阅读 · 6月1日
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
18+阅读 · 2017年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员