LSTM (长短期记忆网络) 从零实现
LSTM (Long Short-Term Memory, 长短期记忆网络) 是序列模型之旅的"最终Boss"。
如果说 RNN 是记性不好的"金鱼",GRU 是高效的"现代文件柜",那么 LSTM 就是一条精密控制的信息高速公路。
它是目前最经典、应用最广泛的循环网络变体,专门设计用于解决长序列训练中的梯度消失问题,能够捕捉非常长期的依赖关系。
核心概念:细胞状态 (Cell State)
LSTM 与 RNN/GRU 最大的不同在于,它在每个时间步维护两个状态:
| 状态 | 符号 | 作用 |
|---|---|---|
| 隐状态 | 当前时刻的短期工作记忆,同时作为输出 | |
| 细胞状态 | 长期记忆,像一条贯穿整个时间序列的"信息高速公路" |
核心直觉: 信息在高速公路 上流动时,只有少量的线性交互。这使得信息很容易保持不变地流过很长的距离。LSTM 通过精心设计的"门"结构,来控制何时向这条高速公路上添加信息,或者何时从上面移除信息。