<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
  <channel>
    <title>数据集 on 多辣加香菜</title>
    <link>http://xilyfeAAAA.github.io/tags/%E6%95%B0%E6%8D%AE%E9%9B%86/</link>
    <description>Recent content in 数据集 on 多辣加香菜</description>
    <generator>Hugo</generator>
    <language>zh-CN</language>
    <lastBuildDate>Sun, 29 Mar 2026 12:36:14 +0800</lastBuildDate>
    <atom:link href="http://xilyfeAAAA.github.io/tags/%E6%95%B0%E6%8D%AE%E9%9B%86/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>LLM 清洗数据</title>
      <link>http://xilyfeAAAA.github.io/posts/data_clean/</link>
      <pubDate>Sun, 29 Mar 2026 12:35:46 +0800</pubDate>
      <guid>http://xilyfeAAAA.github.io/posts/data_clean/</guid>
      <description></description>
    </item>
    <item>
      <title>Dataset 预处理</title>
      <link>http://xilyfeAAAA.github.io/posts/dataset_preprocess/</link>
      <pubDate>Wed, 25 Mar 2026 23:13:25 +0800</pubDate>
      <guid>http://xilyfeAAAA.github.io/posts/dataset_preprocess/</guid>
      <description>&lt;div class=&#34;details admonition info open&#34;&gt;&#xA;    &lt;div class=&#34;details-summary admonition-title&#34;&gt;&#xA;        &lt;span class=&#34;icon&#34;&gt;&lt;svg class=&#34;icon&#34;&#xA;    xmlns=&#34;http://www.w3.org/2000/svg&#34; viewBox=&#34;0 0 512 512&#34;&gt;&lt;!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --&gt;&lt;path d=&#34;M256 8C119.043 8 8 119.083 8 256c0 136.997 111.043 248 248 248s248-111.003 248-248C504 119.083 392.957 8 256 8zm0 110c23.196 0 42 18.804 42 42s-18.804 42-42 42-42-18.804-42-42 18.804-42 42-42zm56 254c0 6.627-5.373 12-12 12h-88c-6.627 0-12-5.373-12-12v-24c0-6.627 5.373-12 12-12h12v-64h-12c-6.627 0-12-5.373-12-12v-24c0-6.627 5.373-12 12-12h64c6.627 0 12 5.373 12 12v100h12c6.627 0 12 5.373 12 12v24z&#34;/&gt;&lt;/svg&gt;&lt;/span&gt;Summary&lt;span class=&#34;details-icon&#34;&gt;&lt;svg class=&#34;icon&#34;&#xA;    xmlns=&#34;http://www.w3.org/2000/svg&#34; viewBox=&#34;0 0 256 512&#34;&gt;&lt;!-- Font Awesome Free 5.15.4 by @fontawesome - https://fontawesome.com License - https://fontawesome.com/license/free (Icons: CC BY 4.0, Fonts: SIL OFL 1.1, Code: MIT License) --&gt;&lt;path d=&#34;M224.3 273l-136 136c-9.4 9.4-24.6 9.4-33.9 0l-22.6-22.6c-9.4-9.4-9.4-24.6 0-33.9l96.4-96.4-96.4-96.4c-9.4-9.4-9.4-24.6 0-33.9L54.3 103c9.4-9.4 24.6-9.4 33.9 0l136 136c9.5 9.4 9.5 24.6.1 34z&#34;/&gt;&lt;/svg&gt;&lt;/span&gt;&#xA;    &lt;/div&gt;&#xA;    &lt;div class=&#34;details-content&#34;&gt;&#xA;        &lt;div class=&#34;admonition-content&#34;&gt;这一篇笔记主要记录一下 Huggingface 库提供的 Trainer 接受的数据集格式，以及 Packing 和 Padding 两种对其策略。&lt;/div&gt;&lt;/div&gt;&lt;/div&gt;&#xA;&lt;h2 id=&#34;对其策略&#34; class=&#34;headerLink&#34;&gt;&#xA;    &lt;a href=&#34;#%e5%af%b9%e5%85%b6%e7%ad%96%e7%95%a5&#34; class=&#34;header-mark&#34;&gt;&lt;/a&gt;对其策略&lt;/h2&gt;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;&lt;strong&gt;Padding&lt;/strong&gt;&lt;/th&gt;&#xA;          &lt;th&gt;&lt;strong&gt;Packing&lt;/strong&gt;&lt;/th&gt;&#xA;          &lt;th&gt;&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;思路&lt;/td&gt;&#xA;          &lt;td&gt;每条样本补齐到固定长度&lt;/td&gt;&#xA;          &lt;td&gt;多条样本拼接填满 block&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;计算效率&lt;/td&gt;&#xA;          &lt;td&gt;低（大量无效 token）&lt;/td&gt;&#xA;          &lt;td&gt;高（几乎无浪费）&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;实现复杂度&lt;/td&gt;&#xA;          &lt;td&gt;简单&lt;/td&gt;&#xA;          &lt;td&gt;较复杂&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;适用场景&lt;/td&gt;&#xA;          &lt;td&gt;样本长度均匀 / finetune&lt;/td&gt;&#xA;          &lt;td&gt;Pretrain 主流做法&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;padding&#34; class=&#34;headerLink&#34;&gt;&#xA;    &lt;a href=&#34;#padding&#34; class=&#34;header-mark&#34;&gt;&lt;/a&gt;Padding&lt;/h3&gt;&lt;p&gt;Pretrain 几乎不用纯 padding，但有时在 eval 或 SFT 阶段使用。它的思路就是用 pad_token 把每一个 sample 都补齐到相同的长度，因为不同长度的 sample 无法组成一个张量。但它存在的问题就是：为了补齐到相同长度，我们不得已加入无意义的 pad_token，可能导致某些 sample 的长度 10 → 512 的情况，浪费大量算力。&lt;/p&gt;</description>
    </item>
  </channel>
</rss>
