CS224N Assignment 4

Xilyfe 发布于 2025-11-30 收录于系列 CS224N

(a) MinGPT

任务(a) 要求阅读 mingpt-demo/play_char.ipynb 代码

1. 位置编码

GPT 用的位置编码不是正余弦函数，而是自训练的参数矩阵：

RoPE

Xilyfe 发布于 2025-11-28 收录于系列 LLM

作用

RoPE 相对于正余弦位置编码和可学习位置编码，更能够表达相对位置信息，便于模型捕捉序列中元素之间的关系，还便于模型泛化到更长的序列，支持超长文本推理。

Bilateral LSTM

Xilyfe 发布于 2025-11-27 收录于系列 DeepLearning

双向 LSTM

有些时候预测可能需要由前面若干输入和后面若干输入共同决定，这样会更加准确。因此提出了双向循环神经网络，网络结构如下图。可以看到 Forward 层和 Backward 层共同连接着输出层，其中包含了 6 个共享权值 w1-w6。

CS224N Lecture 9: Pretraining

Xilyfe 发布于 2025-11-27 收录于系列 CS224N

Subword Modeling

在过去的实践中，我们处理文本会先进行分词，然后把一个个 token 转换为其对应的 idx 索引，在用它去进行词嵌入。但这样的做法有一个问题，在测试集中我们遇到没见过的词语就把他用 <UNK> 来替换，这样会丢失大量的信息。

CS224N Lecture 8: Self-Attention and Transformers

Xilyfe 发布于 2025-11-24 收录于系列 CS224N

Self-Attention

Key, Query, Value

从单条文本来看，矩阵 $x=Ew_t$ 形状为 [SeqLen, EmbeddingSize]。

1. 用权重矩阵 Q,K,V 转换词向量

\begin{align} q_i &= Qx_i \\ k_i &= Kx_i \\ v_i &= Vx_i \end{align}

为了提高计算效率，可以把 Q,K,V 合并为一个大矩阵和 x 相乘，然后再把各个部分取出来，类似 BiLSTM 中四个门控计算合并到一个 [4*H, B] 的大矩阵，然后再通过 .chunk 分开。

CS224N Lecture 7: Attention, Final Project and LLM intro

Xilyfe 发布于 2025-11-23 收录于系列 CS224N

BLEU 评估指标

BLEU 是机器翻译中最经典的自动评价指标之一，用来衡量模型生成的译文（candidate）和人工参考译文（reference）之间的相似度。

CS224N Lecture 5: Recurrent Neural Networks

Xilyfe 发布于 2025-11-22 收录于系列 CS224N

语言模型

LM可以通过一句话的前n个词，计算出下一个词是某个词的概率。

P(x^{t+1}|x^{t},...,x^1)

LM可以计算出某句话出现的概率

P(x^1,...,x^{t})=P(x^1) \cdot P(x^2|x^1) \cdot ...

N-gram

N-gram 指的是一堆连续的词，而 N 指的是这一堆词的个数。一个 N-gram 的 LM 就可以根据前 N-1 个词，预测出第 N 个词的概率。

CS224N Lecture 6: Sequence to Sequence Models

Xilyfe 发布于 2025-11-22 收录于系列 CS224N

梯度消失&梯度爆炸

RNN 在进行反向传播，计算第 j 步的损失对前面的一步梯度的时候，需要运用链式法则：

\begin{aligned} \frac{\partial J^j}{\partial h^i} &= \frac{\partial J^j}{\partial h^j} \cdot \frac{\partial h^j}{\partial h^i} \\ &= \frac{\partial J^j}{\partial h^j} \cdot \frac{\partial h^j}{\partial h^{j-1}} \cdot \ldots \cdot \frac{\partial h^{i+1}}{\partial h^i} \\ &= \frac{\partial J^j}{\partial h^j} \cdot \prod_{i<t\le j} \frac{\partial h^t}{\partial h^{t-1}} \end{aligned}

根据 RNN 的公式$h_t=tanh(Wx \cdot x_t + W_h \cdot h_{t-1} + b_h)$，将激活函数忽略可以得到，$h_t$对$h_{t-1}$的偏导就是 W，所以我们可以近似得到：

CS224N Assignment 1

Xilyfe 发布于 2025-11-21 收录于系列 CS224N

Part 1

Question 1.1: Implement `distinct_words` [code] (2 points)

Write a method to work out the distinct words (word types) that occur in the corpus.

You can use for loops to process the input corpus (a list of list of strings), but try using Python list comprehensions (which are generally faster). In particular, this may be useful to flatten a list of lists. If you’re not familiar with Python list comprehensions in general, here’s more information.

CS224N Lecture 4: Dependency Parsing