LLM 清洗数据

Sun, 29 Mar 2026 12:35:46 +0800

Dataset 预处理

Wed, 25 Mar 2026 23:13:25 +0800

Summary

这一篇笔记主要记录一下 Huggingface 库提供的 Trainer 接受的数据集格式，以及 Packing 和 Padding 两种对其策略。

对其策略

Padding	Packing
思路	每条样本补齐到固定长度	多条样本拼接填满 block
计算效率	低（大量无效 token）	高（几乎无浪费）
实现复杂度	简单	较复杂
适用场景	样本长度均匀 / finetune	Pretrain 主流做法

Padding

Pretrain 几乎不用纯 padding，但有时在 eval 或 SFT 阶段使用。它的思路就是用 pad_token 把每一个 sample 都补齐到相同的长度，因为不同长度的 sample 无法组成一个张量。但它存在的问题就是：为了补齐到相同长度，我们不得已加入无意义的 pad_token，可能导致某些 sample 的长度 10 → 512 的情况，浪费大量算力。

数据集 on 多辣加香菜

LLM 清洗数据

Dataset 预处理

对其策略

Padding