梯度下降方法详解

批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（Mini-batch SGD）是机器学习（特别是深度学习）中优化算法的基石。为了直观地理解，我们可以使用一个经典的**"下山"**比喻，结合具体的数学原理来解释。

想象你被蒙着眼睛放在一座山上，你的目标是以最快的速度下到山谷最低点（损失函数的最小值）。

1. 批量梯度下降 (Batch Gradient Descent, BGD)

这是最原始的梯度下降形式。

原理

在更新参数之前，它会计算整个训练集（所有样本）的梯度。就像是你在迈出一步之前，必须先停下来，把山上每一个角落的坡度都测量一遍，算出平均坡度，然后才走一步。

数学表达

\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta)

其中 $\theta$ 是参数， $\eta$ 是学习率， $\nabla_\theta J(\theta)$ 是基于所有数据计算的梯度。

优点

走得稳： 梯度方向非常准确，震荡少，如果是凸函数（Convex），肯定能走到全局最优解。

缺点

太慢了： 如果你有 100 万条数据，每走一步都要算 100 万次，计算量极其巨大。
内存吃紧： 对于超大数据集，内存可能装不下。

比喻： 这是一个极其谨慎的徒步者。每走一步都要开个全员大会，收集所有地形信息，确信无疑后才迈出一小步。

2. 随机梯度下降 (Stochastic Gradient Descent, SGD)

这是为了解决 BGD 速度慢而提出的极端方案。

原理

每次更新参数时，只随机选取一个样本来计算梯度。

数学表达

\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta; x^{(i)}, y^{(i)})

其中 $(x^{(i)}, y^{(i)})$ 是随机选取的某一个样本。

优点

极快： 算一个样本就走一步，更新频率极高。
跳出陷阱： 由于随机性带来的"震荡"，它有助于跳出局部最优解（Local Minima）。

缺点

太颠簸： 因为单个样本可能不仅代表总体趋势，甚至可能是噪声，导致路线像"醉汉走路"一样曲折，很难收敛到精确的最低点，而是在最低点附近徘徊。
无法并行： 很难利用 GPU 的矩阵运算优势。

比喻： 这是一个鲁莽的醉汉。他感觉脚下这块石头是斜向下的，就立刻往下冲一步，不管整体地形如何。虽然跌跌撞撞，但往往能很快冲到山脚附近。

3. 小批量随机梯度下降 (Mini-batch Stochastic Gradient Descent)

这是前两者的折中方案，也是目前深度学习中最常用的方法。

原理

每次更新参数时，选取一小部分数据（由 Batch Size 决定，通常是 $2$ 的幂次方，如 32, 64, 128 等）来计算梯度。

数学表达

\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta J(\theta; \text{batch})

优点

黄金平衡点： 既比 SGD 稳定（梯度的方差更小），又比 BGD 快。
硬件友好： 非常适合 GPU 进行矩阵并行计算，极大地提高了训练效率。

缺点

需要调整额外的超参数（Batch Size）。

比喻： 这是一个战术小分队。他们不搞全员大会（BGD），也不单打独斗（SGD），而是几个人一组商量一下方向，然后快速行动。既保证了速度，又不容易走偏。

总结对比

特性	批量梯度下降 (BGD)	随机梯度下降 (SGD)	小批量梯度下降 (Mini-batch)
单步数据量	全部数据 (All)	1 个样本 (One)	一小批 (e.g., 32, 64)
单步计算速度	慢	极快	快 (利用 GPU 并行)
收敛路径	平滑、直线	曲折、震荡	略有波动但整体平滑
准确性	高 (容易陷入局部最优)	低 (在最优解附近徘徊)	中 (平衡)
应用场景	小规模数据	在线学习	绝大多数深度学习任务

视觉化总结

BGD 像是一个滚落的球，路径平滑，直接奔向谷底。
SGD 像是一个乱飞的苍蝇，虽然大方向向下，但在过程中疯狂走位。
Mini-batch 像是一个喝了点酒的人，走得有点歪，但步伐坚定且快速地走向目的地。

1. 批量梯度下降 (Batch Gradient Descent, BGD)​

原理​

数学表达​

优点​

缺点​

2. 随机梯度下降 (Stochastic Gradient Descent, SGD)​

原理​

数学表达​

优点​

缺点​

3. 小批量随机梯度下降 (Mini-batch Stochastic Gradient Descent)​

原理​

数学表达​

优点​

缺点​

总结对比​

视觉化总结​

延伸阅读​

1. 批量梯度下降 (Batch Gradient Descent, BGD)

原理

数学表达

优点

缺点

2. 随机梯度下降 (Stochastic Gradient Descent, SGD)

原理

数学表达

优点

缺点

3. 小批量随机梯度下降 (Mini-batch Stochastic Gradient Descent)

原理

数学表达

优点

缺点

总结对比

视觉化总结

延伸阅读