Decentralized inference provides a scalable and resilient paradigm for serving large language models (LLMs), enabling fragmented global resource utilization and reducing reliance on centralized providers. However, in a permissionless environment without trusted nodes, ensuring the correctness of model outputs remains a core challenge. We introduce VeriLLM, a publicly verifiable protocol for decentralized LLM inference that achieves security with incentive guarantees while maintaining practical efficiency. VeriLLM combines lightweight empirical rerunning with minimal on-chain checks to preclude free-riding, allowing verifiers to validate results at approximately 1% of the underlying inference cost by exploiting the structural separation between prefill and autoregressive decoding. To prevent verification bottlenecks, we design an isomorphic inference--verification architecture that multiplexes both inference and verification roles across the same GPU workers. This design (i) improves GPU utilization and overall throughput, (ii) enlarges the effective validator set, enhancing robustness and liveness, and (iii) enforces task indistinguishability to prevent node-specific optimizations or selective behavior. Through theoretical analysis and system-level evaluation, we show that VeriLLM achieves reliable public verifiability with minimal overhead, offering a practical foundation for trustworthy and scalable decentralized LLM inference.


翻译:去中心化推理为大规模语言模型(LLM)的服务提供了一种可扩展且具备韧性的范式,能够实现碎片化全球资源利用并降低对中心化服务提供商的依赖。然而,在无许可且缺乏可信节点的环境中,确保模型输出的正确性仍是一个核心挑战。本文提出VeriLLM,一种面向去中心化LLM推理的公开可验证协议,该协议在保持实用效率的同时,实现了具备激励保障的安全性。VeriLLM将轻量级经验性重运行与最小化的链上检查相结合,以杜绝搭便车行为;通过利用预填充阶段与自回归解码阶段的结构性分离,验证者能够以约1%的底层推理成本对结果进行验证。为防止验证瓶颈,我们设计了一种同构推理-验证架构,该架构在同一批GPU工作者上复用了推理与验证两种角色。该设计(i)提升了GPU利用率和整体吞吐量,(ii)扩大了有效验证者集合,增强了系统的鲁棒性与活性,(iii)通过任务不可区分性防止了节点特定的优化或选择性行为。通过理论分析与系统级评估,我们证明VeriLLM能够以极低的开销实现可靠的公开可验证性,为可信且可扩展的去中心化LLM推理提供了实用基础。

0
下载
关闭预览

相关内容

大语言模型中的隐式推理:综合综述
专知会员服务
32+阅读 · 2025年9月4日
迈向大型推理模型:基于大型语言模型的强化推理综述
专知会员服务
49+阅读 · 2025年1月17日
《以人为中心的大型语言模型(LLM)研究综述》
专知会员服务
41+阅读 · 2024年11月25日
通过集成 XNNPACK 实现推理速度飞跃
TensorFlow
26+阅读 · 2020年7月30日
哈工大讯飞联合实验室发布中文XLNet预训练模型
哈工大SCIR
13+阅读 · 2019年8月20日
NetworkMiner - 网络取证分析工具
黑白之道
16+阅读 · 2018年6月29日
推荐|caffe-orc主流ocr算法:CNN+BLSTM+CTC架构实现!
全球人工智能
19+阅读 · 2017年10月29日
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
VIP会员
相关基金
国家自然科学基金
8+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
国家自然科学基金
18+阅读 · 2012年12月31日
Top
微信扫码咨询专知VIP会员