model	creator	paper	github
Llama3	Meta	https://arxiv.org/abs/2407.21783#	‣
Qwen2	Aliyun	https://arxiv.org/abs/2407.10671	‣
Nemotron	Nvidia	https://arxiv.org/abs/2406.11704	‣
AFM	Apple	https://arxiv.org/abs/2407.21075	-
Yi	01ai	https://arxiv.org/abs/2403.04652	‣
GLM-4	智谱	https://arxiv.org/abs/2406.12793	‣
MiniCPM	智谱	‣	‣
Gemma2	Google	https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
https://arxiv.org/abs/2403.08295
https://arxiv.org/abs/2312.11805	-
DeepSeek-V2	DeepSeek	https://arxiv.org/abs/2405.04434	‣
Baichuan2	百川	https://arxiv.org/abs/2410.14940	-

偏好对齐技术

能力

模型	代码	数学	逻辑推理	指令遵循	多语言	长上下文	工具使用
Qwen2	✅	✅	✅	✅	✅
Llama3	✅	✅	✅	✅	✅	✅	✅

Llama3

奖励模型：用偏好数据训。加入edited response，得到edited > chosen > rejected。训练期间将prompt 和多个对应的 response 拼接成一行，随机打乱response。这样训得快不掉点。

SFT：用奖励模型在带人类标注 response 的 prompt 上进行拒绝采样。拒绝采样数据+合成数据+其他。采用标准交叉熵，遮掩掉 prompt token 上的 loss。学习率10e-5，训练步数8.5K～9K，这些超参设置在不同的轮次和数据混合中都表现良好。

直接偏好优化 DPO。每一轮DPO都使用前一轮对齐中表现最好的模型，并收集最新一批偏好数据。对于Llama 3，lr=1e-5，β=0.1。此外，DPO还应用了以下算法修改：

DPO loss 屏蔽格式化tokens：从chosen 和 rejected responses 屏蔽特殊的格式化tokens，包括header tokens 和 termination tokens。这些token加入损失可能导致奇怪的模型行为，如尾部重复或突然生成终止符。这可能是由于DPO loss 的对比性质 - 两个响应存在共同token导致学习目标冲突，因为模型需要同时增加和减少这些token的可能性。
NLL loss 正则化：在选择的序列上增加了一个额外的负对数似然（NLL）损失项，缩放系数为0.2，类似于Pang等人（2024）。这有助于保持生成期望格式，并防止chosen response的对数概率下降，稳定DPO训练（Pang等人，2024；Pal等人，2024）。

模型平均。在每个RM、SFT或DPO阶段使用不同版本的数据或超参数进行实验，平均获得的模型。

迭代轮次。llama 3应用以上方法迭代六轮。每一轮都收集新的偏好注释和SFT数据，从最新模型中采样合成数据。

数据

后训练数据包括人类注释数据、偏好数据，SFT数据组成，以及数据质量控制、清洗方法。

SFT 数据