model | creator | paper | github |
---|---|---|---|
Llama3 | Meta | https://arxiv.org/abs/2407.21783# | ‣ |
Qwen2 | Aliyun | https://arxiv.org/abs/2407.10671 | ‣ |
Nemotron | Nvidia | https://arxiv.org/abs/2406.11704 | ‣ |
AFM | Apple | https://arxiv.org/abs/2407.21075 | - |
Yi | 01ai | https://arxiv.org/abs/2403.04652 | ‣ |
GLM-4 | 智谱 | https://arxiv.org/abs/2406.12793 | ‣ |
MiniCPM | 智谱 | ‣ | ‣ |
Gemma2 | https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf | ||
https://arxiv.org/abs/2403.08295 | |||
https://arxiv.org/abs/2312.11805 | - | ||
DeepSeek-V2 | DeepSeek | https://arxiv.org/abs/2405.04434 | ‣ |
Baichuan2 | 百川 | https://arxiv.org/abs/2410.14940 | - |
偏好对齐技术
模型 | 偏好对齐技术 |
---|---|
Llama3 | 迭代式DPO |
Qwen2、Yi-Lightning | offline DPO + online DPO |
ChatGLM4 | DPO + PPO |
Deepseek-V2、Baichuan2 | GRPO |
Nemotron-4 | 迭代式DPO+RPO |
AFM | 综合RS、DPO、IPO,以及改进版在线RL:MDLOO |
能力
模型 | 代码 | 数学 | 逻辑推理 | 指令遵循 | 多语言 | 长上下文 | 工具使用 |
---|---|---|---|---|---|---|---|
Qwen2 | ✅ | ✅ | ✅ | ✅ | ✅ | ||
Llama3 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
奖励模型:用偏好数据训。加入edited response,得到edited > chosen > rejected。训练期间将prompt 和多个对应的 response 拼接成一行,随机打乱response。这样训得快不掉点。
SFT:用奖励模型在带人类标注 response 的 prompt 上进行拒绝采样。拒绝采样数据+合成数据+其他。采用标准交叉熵,遮掩掉 prompt token 上的 loss。学习率10e-5,训练步数8.5K~9K,这些超参设置在不同的轮次和数据混合中都表现良好。
直接偏好优化 DPO。每一轮DPO都使用前一轮对齐中表现最好的模型,并收集最新一批偏好数据。对于Llama 3,lr=1e-5,β=0.1。此外,DPO还应用了以下算法修改:
模型平均。在每个RM、SFT或DPO阶段使用不同版本的数据或超参数进行实验,平均获得的模型。
迭代轮次。llama 3应用以上方法迭代六轮。每一轮都收集新的偏好注释和SFT数据,从最新模型中采样合成数据。
后训练数据包括人类注释数据、偏好数据,SFT数据组成,以及数据质量控制、清洗方法。
SFT 数据