目录

Q&A

  1. prompt 有没有设计好,比如选择题需要明确说明 输出结果为A/B
  2. 注意 reward hacking,现象是越训练 reward 越少
  3. 组内优势解决于零,num_generations 太小,奖励方差太小
  1. 领域/通用数据集配比
  2. 学习率怎么选择