梯度下降算法 | Notion

梯度下降算法（Gradient Descent）是一种用于优化和训练机器学习模型的常用算法。它的目标是通过迭代调整模型参数，以最小化损失函数（也称为目标函数），从而找到模型的最优解。该算法可以广泛应用于线性回归、逻辑回归、神经网络等机器学习模型的优化过程中。

梯度下降算法的基本思想

梯度下降的核心思想是，沿着损失函数的梯度方向更新参数。梯度指的是函数的导数，表示函数在该点上变化最快的方向。为了最小化损失函数，算法在每一步中沿着梯度的反方向更新参数，因为梯度的正方向是函数值增长最快的方向，而负梯度方向是下降最快的方向。

梯度下降的步骤

初始化参数：随机初始化模型的参数（如权重和偏置），通常设置为较小的随机数。
计算损失函数：基于当前的模型参数，计算损失函数的值，表示模型的误差。
计算梯度：对损失函数求关于模型参数的梯度。梯度是一个向量，包含了所有参数对应的导数。
更新参数：使用梯度下降的更新规则，调整模型的参数。参数更新公式为：

$$

\theta := \theta - \alpha \nabla_{\theta}J(\theta)

$$

其中：
- $\theta$ 是模型的参数。
- $\alpha$ 是学习率（Learning Rate），决定每次更新的步长。
- $\nabla_{\theta}J(\theta)$ 是损失函数 $J(\theta)$ 关于参数 $\theta$ 的梯度。
重复迭代：重复步骤2到步骤4，直到损失函数收敛或达到预定的迭代次数。

关键参数

学习率（Learning Rate）：学习率决定了每次更新参数时的步长。如果学习率太大，可能会导致算法发散；如果学习率太小，算法的收敛速度会非常慢。
初始参数：初始化的参数值对梯度下降的收敛速度和最终结果有一定影响。
迭代次数：算法执行的最大迭代次数。在一些情况下，可能需要设定一个终止条件，例如损失函数的变化小于某个阈值，来结束迭代。

梯度下降的不同变体

批量梯度下降（Batch Gradient Descent）：在每次更新参数时，使用整个训练集来计算损失函数的梯度。这种方法可以确保每次更新的梯度是全局的，但在大数据集上计算开销较大。
随机梯度下降（Stochastic Gradient Descent, SGD）：每次更新只使用一个样本点来计算梯度，因此每次更新可能并不是沿着最陡的下降方向。虽然收敛速度可能较快，但由于每次更新的波动性，收敛到最优解时可能会有抖动。
小批量梯度下降（Mini-batch Gradient Descent）：在每次更新时使用一小部分样本数据，介于批量梯度下降和随机梯度下降之间，平衡了两者的优缺点，通常是实践中最常用的方法。

优化技术

动量（Momentum）：引入动量可以加速收敛并减少波动。它通过在更新过程中保留前几次更新的方向，使得算法在相同方向上更新更快。