vLLM 部署大模型

Sun, 15 Mar 2026 23:03:06 +0800

1. 概述

大模型推理有多种方式比如

其中，热度最高的应该就是 vLLM，性能好的同时使用也非常简单，上一次分析了 vLLM 如何实现这么高的性能，这次记录一下如何使用 vLLM 来启动大模型推理服务。

Thu, 12 Mar 2026 11:29:34 +0800

vLLM 是目前最受欢迎的开源 LLM 推理与服务引擎之一，它以 PagedAttention 为核心创新，彻底解决了传统 LLM Inference 中 KV Cache 内存碎片化的问题，让 throughput 提升 2~24×，同时内存利用率接近 100%。