分布式训练技术 - 张量并行

Thu, 05 Feb 2026 19:50:43 +0800

上一篇文章我们学的是 DP 和 DDP，它们的思路是 用显存冗余换吞吐量。每张 GPU都有完整模型，但是只处理不同的数据，它的本质是复制模型 → 并行处理数据 → 最后通过 AllReduce 同步梯度，代价是模型被复制 N 份，占用 N 倍显存。张量并行 Tensor Parallel 的思路正好相反是 用通信换显存。现在的大模型参数量巨大一张卡很可能放不下，所以把模型拆到多卡，每张 GPU 只有部分模型，但是处理完整的数据，最后进行合并。

分布式训练技术 - 数据并行

Mon, 02 Feb 2026 19:50:43 +0800

我们先回忆一下传统的单机单卡训练模式：

首先硬盘读取数据，CPU 处理数据，将数据组成一个 batch，再传入 GPU，网络前向传播算出 loss，再反向传播计算梯度，用梯度更新参数完成一次训练。这种传统模式在大参数量或者大数据量的情况下就容易陷入显存的瓶颈，于是就引出了多卡并行训练。

分布式 on 多辣加香菜

分布式训练技术 - 张量并行

分布式训练技术 - 数据并行