model creator paper github
Llama3 Meta https://arxiv.org/abs/2407.21783#
Qwen2 Aliyun https://arxiv.org/abs/2407.10671
Nemotron Nvidia https://arxiv.org/abs/2406.11704
AFM Apple https://arxiv.org/abs/2407.21075 -
Yi 01ai https://arxiv.org/abs/2403.04652
GLM-4 智谱 https://arxiv.org/abs/2406.12793
MiniCPM 智谱
Gemma2 Google https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
https://arxiv.org/abs/2403.08295
https://arxiv.org/abs/2312.11805 -
DeepSeek-V2 DeepSeek https://arxiv.org/abs/2405.04434
Baichuan2 百川 https://arxiv.org/abs/2410.14940 -

偏好对齐技术

模型 偏好对齐技术
Llama3 迭代式DPO
Qwen2、Yi-Lightning offline DPO + online DPO
ChatGLM4 DPO + PPO
Deepseek-V2、Baichuan2 GRPO
Nemotron-4 迭代式DPO+RPO
AFM 综合RS、DPO、IPO,以及改进版在线RL:MDLOO

能力

模型 代码 数学 逻辑推理 指令遵循 多语言 长上下文 工具使用
Qwen2
Llama3

Llama3

奖励模型:用偏好数据训。加入edited response,得到edited > chosen > rejected。训练期间将prompt 和多个对应的 response 拼接成一行,随机打乱response。这样训得快不掉点。

SFT:用奖励模型在带人类标注 response 的 prompt 上进行拒绝采样。拒绝采样数据+合成数据+其他。采用标准交叉熵,遮掩掉 prompt token 上的 loss。学习率10e-5,训练步数8.5K~9K,这些超参设置在不同的轮次和数据混合中都表现良好。

直接偏好优化 DPO。每一轮DPO都使用前一轮对齐中表现最好的模型,并收集最新一批偏好数据。对于Llama 3,lr=1e-5,β=0.1。此外,DPO还应用了以下算法修改:

模型平均。在每个RM、SFT或DPO阶段使用不同版本的数据或超参数进行实验,平均获得的模型。

迭代轮次。llama 3应用以上方法迭代六轮。每一轮都收集新的偏好注释和SFT数据,从最新模型中采样合成数据。

数据

后训练数据包括人类注释数据、偏好数据,SFT数据组成,以及数据质量控制、清洗方法。

SFT 数据