Architectures
- Normorlization
- Pre - Post
- Layer Norm - RMS Norm
- Activations
- ReLU, GeLU, GLU
- HyperParameters
- $d_{ff}$,$d_{model}$
- num_heads
- vocabulary
- dropout & regularization
- Stability Tricks
- Other MHA
Norm
PreNorm
现代的 Transformer 架构中,Transformer Block 都采用 PreNorm 而不是 PostNorm,具体来说就是把 Norm 放在注意力机制和 FFN 前馈网络层前面,而不是进行残差连接之后再 Norm。优点在于==训练更稳定,可以采用更大的学习率==。




