1. CLIProxyAPI
1.1 前言
CLIProxyAPI 是一个为CLI提供 OpenAI/Gemini/Claude/Codex 兼容 API 接口的代理服务器。使我们可以使用本地或多账户的CLI方式,通过任何与 OpenAI / Gemini /Claude 兼容的客户端和 SDK 进行访问。
CLIProxyAPI 是一个为CLI提供 OpenAI/Gemini/Claude/Codex 兼容 API 接口的代理服务器。使我们可以使用本地或多账户的CLI方式,通过任何与 OpenAI / Gemini /Claude 兼容的客户端和 SDK 进行访问。
Minimind 和强化学习暂时告一段落了,现在准备开始一个新的项目 “MedicalGPT”。这个项目也是 Github 上的一个开源项目,实现了包括增量预训练、有监督微调、RLHF 和 DPO。这个项目中我主要会学习其中的一些 trick、数据构造思路、训练评估的完整流程,总体如下:
| Padding | Packing | |
|---|---|---|
| 思路 | 每条样本补齐到固定长度 | 多条样本拼接填满 block |
| 计算效率 | 低(大量无效 token) | 高(几乎无浪费) |
| 实现复杂度 | 简单 | 较复杂 |
| 适用场景 | 样本长度均匀 / finetune | Pretrain 主流做法 |
Pretrain 几乎不用纯 padding,但有时在 eval 或 SFT 阶段使用。它的思路就是用 pad_token 把每一个 sample 都补齐到相同的长度,因为不同长度的 sample 无法组成一个张量。但它存在的问题就是:为了补齐到相同长度,我们不得已加入无意义的 pad_token,可能导致某些 sample 的长度 10 → 512 的情况,浪费大量算力。
vLLM 是目前最受欢迎的开源 LLM 推理与服务引擎之一,它以 PagedAttention 为核心创新,彻底解决了传统 LLM Inference 中 KV Cache 内存碎片化的问题,让 throughput 提升 2~24×,同时内存利用率接近 100%。