<aside> 🎯
对模型推理能力影响最大的预训练数据,是那些程序型数据(如代码、数学公式推导过程)
https://lauraruis.github.io/2024/11/10/if.html
</aside>
LLM 使用的推理方法看起来不同于检索,而更像是一种通用策略——从许多文档中综合程序性知识并进行类似的推理
证据:
<aside> 🎯
对于具有相同底层推理任务的查询,预训练文档的影响力得分之间存在显著的正相关性,表明了这些文档与「需要对不同数字应用相同程序」的问题相关。
</aside>
<aside> 🎯
在推理时,模型对每个文档的依赖程度平均低于回答事实问题时对每个生成信息量的依赖程度,总体影响幅度波动性要小得多,表明它是从一组更一般的文档中泛化出来的。模型越大,效果越明显。
</aside>
<aside> 🎯
事实问题的答案在对问题 top 影响力的文档中出现的频率相对较高,而推理问题的答案几乎没有在对它们 top 影响力的文档中出现过。
</aside>
<aside> 🎯
对推理查询有影响力的文档通常采用类似的逐步推理形式,如算术。同时有影响力的文档通常以代码或一般数学的形式实现推理问题的解决方案。
</aside>
<aside> 🎯
对于事实查询,最有影响力的数据来源包括维基百科和小知识;而推理查询的主要来源包括数学、StackExchange、ArXiv 和代码。
</aside>
<aside> 🎯
在RL中只监督answer
在RL中监督CoT
(来自OpenAI) 我们进一步发现,直接优化思维链(CoT)以遵循特定标准(例如,避免考虑奖励破解问题 )在短期内可能会提升性能;然而,这并不能消除所有不当行为,还可能导致模型隐藏其意图。我们希望未来的研究能够找到在没有这种缺陷的情况下直接优化思维链的方法,但在此之前:
我们建议不要对前沿推理模型的思维链直接施加强大的优化压力,而是让思维链不受限制以便进行监测。
我们明白,让思维链不受限制可能使其不适合直接展示给终端用户,因为它们可能会违反一些滥用政策。不过,如果有人希望在不对其进行严格监督的情况下向用户直接展示符合政策的思维链,那么可以使用一个单独的模型,比如思维链摘要生成器或净化器来实现这一点。