<aside> 🎨

预训练尺度定律

</aside>

<aside> 🎨

继续预训练的领域能力尺度定律:预训练阶段,提高“domain能力“和”general 能力“是相互冲突的

</aside>

D-CPT https://arxiv.org/pdf/2406.01375

  1. 小学习率,domain 学得快,通用忘得慢;
  2. 大学习率,domain 学得快,但到一定地步后就震荡,毕竟学习能力有限;
  3. 不同 size 的模型适合不同的学习率。

<aside> 🎨

奖励模型尺度定律

</aside>

<aside> 🎨

解码阶段尺度定律

</aside>

<aside> 🎨

精度尺度定律

</aside>