The proliferation of Large Language Models (LLMs) has been accompanied by a reliance on cloud-based, proprietary systems, raising significant concerns regarding data privacy, operational sovereignty, and escalating costs. This paper investigates the feasibility of deploying a high-performance, private LLM inference server at a cost accessible to Small and Medium Businesses (SMBs). We present a comprehensive benchmarking analysis of a locally hosted, quantized 30-billion parameter Mixture-of-Experts (MoE) model based on Qwen3, running on a consumer-grade server equipped with a next-generation NVIDIA GPU. Unlike cloud-based offerings, which are expensive and complex to integrate, our approach provides an affordable and private solution for SMBs. We evaluate two dimensions: the model's intrinsic capabilities and the server's performance under load. Model performance is benchmarked against academic and industry standards to quantify reasoning and knowledge relative to cloud services. Concurrently, we measure server efficiency through latency, tokens per second, and time to first token, analyzing scalability under increasing concurrent users. Our findings demonstrate that a carefully configured on-premises setup with emerging consumer hardware and a quantized open-source model can achieve performance comparable to cloud-based services, offering SMBs a viable pathway to deploy powerful LLMs without prohibitive costs or privacy compromises.


翻译:大型语言模型(LLM)的普及伴随着对基于云的专有系统的依赖,这引发了关于数据隐私、运营自主权和成本攀升的重大关切。本文研究了以中小型企业(SMB)可承受的成本部署高性能私有LLM推理服务器的可行性。我们对一个基于Qwen3、经量化处理的300亿参数混合专家(MoE)模型进行了全面的基准测试分析,该模型在配备下一代NVIDIA GPU的消费级服务器上本地运行。与昂贵且集成复杂的云服务不同,我们的方法为中小型企业提供了一种经济且私有的解决方案。我们从两个维度进行评估:模型的内在能力和服务器在负载下的性能。模型性能依据学术和行业标准进行基准测试,以量化其相对于云服务的推理能力和知识水平。同时,我们通过延迟、每秒处理令牌数和首令牌生成时间等指标来衡量服务器效率,并分析其在并发用户数增加时的可扩展性。我们的研究结果表明,通过精心配置的本地部署,结合新兴的消费级硬件和量化开源模型,可以获得与云服务相媲美的性能,为中小型企业提供了一条可行的路径,使其能够部署强大的LLM,而无需承担高昂的成本或牺牲数据隐私。

0
下载
关闭预览

相关内容

服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。
服务器的构成包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
深度学习目标检测模型全面综述:Faster R-CNN、R-FCN和SSD
深度学习世界
10+阅读 · 2017年9月18日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员