在 CS224N 的课程中学习了 RNN 的基本知识,为了深入了解背后的机制和代码实现,我让 GPT 设计了一个 RNN 相关的深度学习任务,通过 PyTorch 手搓一个 RNN 网络。
实验题目
使用 RNN 实现英文字母序列预测任务(Character-Level Sequence Prediction)
每个不同的向量代表一个单词,例如:
到底需要多少算力才能部署一个模型,这是一个非常常见的问题。我们就从训练和推理两个场景,分析一下如何估计模型所需要的显存。
训练显存大致分为以下四部分:
因此使用 AdamW 优化器 + 混合精度训练的经验公式为: