Tokenizer
在 CS336 的笔记中我已经完整介绍了一个 Tokenizer 是如何训练并且读取的,详情可见 cs336_assignment1。
简单来说,训练一个 tokenizer 经过以下步骤:
- 通过正则分词,获得文本中全部 token,将其和 special_tokens 一起记录。
- 不断把文本中出现频率最高的 token_pair 合并得到新 token,然后用新 token 替换文本中原先的 pair。
- 重复上一步直到 vocab 达到指定规模。
上面的代码我们已经在 CS336 里实现过了,这一次我们通过 Huggingface 的 tokenizers 库直接生成。为了方便阅读,我先从如何得到一个 tokenizer 讲起。






