RNN 从零实现
理解循环神经网络(RNN)的内部机制是掌握深度学习序列模型(如 LSTM、Transformer)的基石。本文将从直观和数学角度介绍 RNN,然后使用 PyTorch 从零实现一个 RNN 模型。
理解循环神经网络(RNN)的内部机制是掌握深度学习序列模型(如 LSTM、Transformer)的基石。本文将从直观和数学角度介绍 RNN,然后使用 PyTorch 从零实现一个 RNN 模型。
这是 Transformer 架构中最反直觉、也最核心的问题:既然 Transformer 是一个 token 一个 token 预测的,怎么能说它是并行的?
1. 为什么需要参数初始化?