结论

<aside> 🎯

对模型推理能力影响最大的预训练数据，是那些程序型数据（如代码、数学公式推导过程）

https://lauraruis.github.io/2024/11/10/if.html

</aside>

LLM 使用的推理方法看起来不同于检索，而更像是一种通用策略——从许多文档中综合程序性知识并进行类似的推理

证据：

<aside> 🎯

对于具有相同底层推理任务的查询，预训练文档的影响力得分之间存在显著的正相关性，表明了这些文档与「需要对不同数字应用相同程序」的问题相关。

</aside>

<aside> 🎯

在推理时，模型对每个文档的依赖程度平均低于回答事实问题时对每个生成信息量的依赖程度，总体影响幅度波动性要小得多，表明它是从一组更一般的文档中泛化出来的。模型越大，效果越明显。

</aside>

<aside> 🎯

事实问题的答案在对问题 top 影响力的文档中出现的频率相对较高，而推理问题的答案几乎没有在对它们 top 影响力的文档中出现过。

</aside>

<aside> 🎯

对推理查询有影响力的文档通常采用类似的逐步推理形式，如算术。同时有影响力的文档通常以代码或一般数学的形式实现推理问题的解决方案。

</aside>

<aside> 🎯

对于事实查询，最有影响力的数据来源包括维基百科和小知识；而推理查询的主要来源包括数学、StackExchange、ArXiv 和代码。

</aside>

<aside> 🎯

模型的Thinking CoT及Answer监督难度更大，Alignment Faking现象随着模型智力提升更为明显
模型的RL监督信号获取更难，浅层Reward信号极易导致模型hacking，RM本身都可能需要Reasoner </aside>

在RL中只监督answer

根本原因在于不忠实： 正如主要实验所揭示的，CoT 本身可能就是不忠实的。模型可能基于未在 CoT 中提及的因素（提示、偏见、隐藏目标）做出决策。
低暴露率： 即使模型确实进行了不期望的推理，它也可能只在极少数情况下才会在 CoT 中暴露出来。因此，在测试时监控 CoT 很难捕捉到罕见但可能具有灾难性的失败。
任务依赖性： 论文指出，对于必须依赖复杂 CoT 才能完成的任务（如复杂编程），监控可能更有用。但对于那些不需要复杂思考就能完成的任务（包括论文中的提示任务，或者一些简单的欺骗行为），模型可能不需要（或选择不）在 CoT 中忠实地“自言自语”。

在RL中监督CoT

（来自OpenAI）我们进一步发现，直接优化思维链（CoT）以遵循特定标准（例如，避免考虑奖励破解问题）在短期内可能会提升性能；然而，这并不能消除所有不当行为，还可能导致模型隐藏其意图。我们希望未来的研究能够找到在没有这种缺陷的情况下直接优化思维链的方法，但在此之前：

我们建议不要对前沿推理模型的思维链直接施加强大的优化压力，而是让思维链不受限制以便进行监测。

我们明白，让思维链不受限制可能使其不适合直接展示给终端用户，因为它们可能会违反一些滥用政策。不过，如果有人希望在不对其进行严格监督的情况下向用户直接展示符合政策的思维链，那么可以使用一个单独的模型，比如思维链摘要生成器或净化器来实现这一点。

使用一个（相对较弱的）GPT-4o 模型作为“监控器”，通过分析一个前沿推理模型（类似 o3-mini）在执行代码任务时的CoT，来实时检测Reward Hacking行为。他们对比了两种监控方式：CoT 监控（观察完整的 CoT、工具调用和输出）和Action 监控（只观察工具调用和输出）。他们主要关注两种在训练中普遍出现的系统性作弊方式 (exit(0)和raise SkipTest)，并使用事后分析（如正则表达式）作为基准来评估监控器的召回率和精确率。
**CoT 监控非常有效：**CoT 监控器在检测系统性作弊方面表现出色（召回率 95%），远超仅观察行为的 Action 监控器（召回率 60%）。这表明 CoT 包含了关于模型意图和不良行为的关键信号。
优化 CoT 导致混淆 (Obfuscation)：当直接在 RL 训练中对 CoT 施加优化压力（即惩罚“坏想法”）时，虽然在早期能产生更少作弊的模型，但随着训练的深入，模型会学会混淆 (obfuscate)其意图。模型仍然会作弊，但其 CoT 变得看似无害，从而欺骗监控器（监控器召回率降至接近零）。