<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>推理框架 on 多辣加香菜</title>
    <link>http://xilyfeAAAA.github.io/series/%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6/</link>
    <description>Recent content in 推理框架 on 多辣加香菜</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    <lastBuildDate>Mon, 16 Mar 2026 10:48:53 +0800</lastBuildDate>
    <atom:link href="http://xilyfeAAAA.github.io/series/%E6%8E%A8%E7%90%86%E6%A1%86%E6%9E%B6/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>vLLM 部署大模型</title>
      <link>http://xilyfeAAAA.github.io/posts/vllm-deploy/</link>
      <pubDate>Sun, 15 Mar 2026 23:03:06 +0800</pubDate>
      <guid>http://xilyfeAAAA.github.io/posts/vllm-deploy/</guid>
      <description>&lt;h2 id=&#34;1-概述&#34; class=&#34;headerLink&#34;&gt;&#xA;    &lt;a href=&#34;#1-%e6%a6%82%e8%bf%b0&#34; class=&#34;header-mark&#34;&gt;&lt;/a&gt;1. 概述&lt;/h2&gt;&lt;p&gt;大模型推理有多种方式比如&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;最基础的 HuggingFace Transformers&lt;/li&gt;&#xA;&lt;li&gt;TGI&lt;/li&gt;&#xA;&lt;li&gt;vLLM&lt;/li&gt;&#xA;&lt;li&gt;Triton + TensorRT-LLM&lt;/li&gt;&#xA;&lt;li&gt;…&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;其中，热度最高的应该就是 vLLM，性能好的同时使用也非常简单，上一次分析了 vLLM 如何实现这么高的性能，这次记录一下如何使用 vLLM 来启动大模型推理服务。&lt;/p&gt;</description>
    </item>
    <item>
      <title>vLLM 原理</title>
      <link>http://xilyfeAAAA.github.io/posts/vllm_principle/</link>
      <pubDate>Thu, 12 Mar 2026 11:29:34 +0800</pubDate>
      <guid>http://xilyfeAAAA.github.io/posts/vllm_principle/</guid>
      <description>&lt;blockquote&gt;&#xA;  &lt;p&gt;vLLM 是目前最受欢迎的开源 LLM 推理与服务引擎之一，它以 PagedAttention 为核心创新，彻底解决了传统 LLM Inference 中 KV Cache 内存碎片化的问题，让 throughput 提升 2~24×，同时内存利用率接近 100%。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
