RL训推不一致的原因 & 解决方案

Sun, 26 Apr 2026 15:31:35 +0800

1. 问题

随着现在强化学习训练的规模越来越大，大部分的公司都把强化学习的 inference 和 training 分为两个部分。在 inference 或者说 rollout 阶段，我们用推理引擎（vllm/sglang）。它带来了 paged attention、kv cache 和其它优化过的 kernal 以及特定的浮点精度设置（例如 BF16、FP8 等），我们追求快速生成与高 throughput。然后在梯度更新阶段采用训练引擎（fsdp/megatron）等等，它采用的分布式框架可以提高训练规模，我们关注数值稳定性与精确梯度计算，并可能采用不同的浮点精度和算子实现。但是由于两部分用不同框架进行训练，推理引擎和训练引擎对同一个 prompt 计算得到的 logprobs 不一致，就导致了 on-policy 变成了 off-policy，我们用于训练的数据不是真的有模型自己生成了。这种微小差异在监督学习里可能不会显著，但在 RL 中会被放大，因为强化学习依赖概率比率来估计梯度。

面经 on 多辣加香菜

RL训推不一致的原因 & 解决方案

1. 问题