在人工智能产业中,推理(Inference)是最具价值的范畴。相比之下,推理工程(Inference Engineering)仍处于起步阶段。推理工程师的工作贯穿了从 CUDA 到 Kubernetes 的整个技术栈,旨在实现生成式 AI 模型在生产环境(Production)中更快速、更低成本且更可靠的部署。 2022 年 11 月 30 日——即 ChatGPT 发布当天——全球范围内的推理工程师或许仅有数百名,尽管当时这一职位的称谓尚未统一。这些专家主要就职于 OpenAI、Midjourney、Anthropic 等前沿实验室,或 Google、NVIDIA 等科技巨头。
在当时看来,这似乎预示了 AI 产业的发展走向:生成式 AI 模型的训练门槛极高且耗资巨大,以至于可能只有极少数公司能够开发闭源模型,并进而需要推理工程来进行生产级部署。在这种假设的未来中,世界上的其他实体都将仅仅是 AI 的消费者,通过 API 以“Token”为单位租赁智能。
三年后的现状表明,训练生成式 AI 模型固然困难且昂贵,但其门槛并未高到让上述少数玩家垄断的程度。 相反,开源模型的“寒武纪大爆发”(目前 Hugging Face 上的模型数量已超过 200 万且仍在增长)意味着每位工程师现在都可以部署专属的智能模型,以此为其 AI 产品赋能。全球的研究实验室——从美国的 OpenAI、NVIDIA Nemotron,到欧洲的 Mistral AI、Black Forest Labs,再到中国的阿里巴巴 Qwen(通义千问)、DeepSeek AI(深度求索)、零一万物(01.AI)及月之暗面(Moonshot AI)——都在定期发布涵盖各种模态(Modalities)的开源模型。