3 篇文档带有标签「RNN」

RNN 从零实现

理解循环神经网络（RNN）的内部机制是掌握深度学习序列模型（如 LSTM、Transformer）的基石。本文将从直观和数学角度介绍 RNN，然后使用 PyTorch 从零实现一个 RNN 模型。

这是 Transformer 架构中最反直觉、也最核心的问题：既然 Transformer 是一个 token 一个 token 预测的，怎么能说它是并行的？

1. 为什么需要参数初始化？