[PDF] Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets | Semantic Scholar

在本文中,我们提议在通过算法生成的小型数据集上研究神经网络的泛化。在这种情况下,有关数据效率、记忆、泛化和学习速度等问题都可以得到详细研究。在某些情况下,我们发现神经网络可以通过 "摸索 "数据中的模式来学习,从而将泛化性能从随机概率水平提高到完美泛化水平,而且这种泛化性能的提高可以远远超过过度拟合的程度。我们还研究了泛化与数据集大小的函数关系,发现较小的数据集需要越来越多的泛化优化。我们认为,这些数据集为研究深度学习中一个鲜为人知的方面提供了肥沃的土壤:超参数化神经网络的泛化超越了对有限训练数据集的记忆

Untitled

https://arxiv.org/abs/2405.15071