Inference on 多辣加香菜

vLLM 部署大模型

Sun, 15 Mar 2026 23:03:06 +0800

大模型推理有多种方式比如

其中，热度最高的应该就是 vLLM，性能好的同时使用也非常简单，上一次分析了 vLLM 如何实现这么高的性能，这次记录一下如何使用 vLLM 来启动大模型推理服务。

Thu, 12 Mar 2026 11:29:34 +0800

vLLM 是目前最受欢迎的开源 LLM 推理与服务引擎之一，它以 PagedAttention 为核心创新，彻底解决了传统 LLM Inference 中 KV Cache 内存碎片化的问题，让 throughput 提升 2~24×，同时内存利用率接近 100%。

Wed, 11 Feb 2026 11:19:33 +0800

在 MiniMind 系列的 eval 部分我们已经学习了如何通过 transformers 库里 GenerateMixin 基类来生成文本，这一章学习一下 model.generate() 方法到底是怎么实现的。

2026-01-25 #大模型 #深度学习

这一章我们需要设计一个脚本来验证大模型的对话能力评估脚本我们预训练是让模型学会说话的能力，或者说词语接龙的能力，给他一个 prompt 它可以接着说下去。因此我们在处理 prompt 时候需要稍加处理： python

Transformer 模型在训练时有一个 forward 方法，是用于针对模型的输入来产生输出，从而计算损失 loss，更新模型的参数。既然有这么一个生成的函数了，为什么 Transformer 中还有专门设计 generate 方法来负责在推理时生成文本呢？